17 27943

双击时无法建立标签

杜若 于 2019-3-12 20:47 发表 [复制链接]
规则:网易云音乐a
网易云音乐双击的时候不能建立标签,采用内容映射,测试时是可以提取的,但是采集数据时失败,日志提示规则设置不合理或爬取超时,请问是什么原因呢?
举报 使用道具
| 回复

共 17 个关于本帖的回复 最后回复于 2019-7-22 18:07

Fuller 管理员 发表于 2019-3-13 09:04:03 | 显示全部楼层
id20190313090248.png

首先,定位偏好用缺省的不太好,缺省是偏好id,可以看到这个id很特别,说不定会不断改变,应该选择偏好class
举报 使用道具
Fuller 管理员 发表于 2019-3-13 09:12:35 | 显示全部楼层
定位20190313090621.png
内容映射这里,其实再加上定位标志映射可以提高定位的精度,提高规则的适应性。我看这些class都很符合语义,比如,点赞数就是@class='zan xxxx'
举报 使用道具
Fuller 管理员 发表于 2019-3-13 09:21:10 | 显示全部楼层
翻页规则20190313090825.png

翻页是个最大的麻烦,我看无论id还是class都是临时有效的,class里面的155xxxx这个数字显然是毫秒级的时间戳,可能随时变化。规则里面含有这个就不能用了。要这样做:
1,正常定义完规则以后,点击“存规则”
2,手工编辑规则,就是上图红色箭头指向的内容,改成这样
  1. //*[contains(@class,'u-page')]//a[.//text()="下一页"]
复制代码


3,点击“保存修改”,这时候就不要点击“存规则”了,存规则是自动生成的规则,不是手工修改的内容。
举报 使用道具
杜若 初级会员 发表于 2019-3-13 10:38:22 | 显示全部楼层
Fuller 发表于 2019-3-13 09:21
翻页是个最大的麻烦,我看无论id还是class都是临时有效的,class里面的155xxxx这个数字显然是毫秒级的时 ...

34@IQF7V1[L[V3P30L)J.png 0{)VU73PN(_C}]`F6)~MO$M.png 66U(O)[_3A7AV4[I@C8AE.png 现在可以采集了,但是采集的时候翻页之后只能采集到一条数据,而且爬取页面并没有像正常的滚动页面一样而是一直都是那个画面,请问应该怎么办呢?规则是网易云音乐222
举报 使用道具
Fuller 管理员 发表于 2019-3-13 17:04:47 | 显示全部楼层
杜若 发表于 2019-3-13 10:38
现在可以采集了,但是采集的时候翻页之后只能采集到一条数据,而且爬取页面并没有像正常的滚动页面一样而 ...

第一页20190313170213.png

定义规则的时候,选择第一条作为样例做内容映射,虽然他们属于精彩评论的,但是如果你用最新评论的第一和第二条做样例,得到的规则像最上面那个箭头那样,编号是从20开始的,到第二页,可能总共才20个。第一页上,精彩评论和最新评论都是放在一起的,没有办法只有用精彩评论的做样例,让生成的规则从1开始抓取
举报 使用道具
杜若 初级会员 发表于 2019-7-22 10:22:45 | 显示全部楼层
你好  请问下可以帮我看看我的规则网易云音乐评论抓取哪里有问题吗?
举报 使用道具
杜若 初级会员 发表于 2019-7-22 10:25:43 | 显示全部楼层
Fuller 发表于 2019-3-13 17:04
定义规则的时候,选择第一条作为样例做内容映射,虽然他们属于精彩评论的,但是如果你用最新评论的第一 ...

你好  请问下可以帮我看看我的规则网易云音乐评论抓取哪里有问题吗?
举报 使用道具
Fuller 管理员 发表于 2019-7-22 12:14:10 | 显示全部楼层
杜若 发表于 2019-7-22 10:25
你好  请问下可以帮我看看我的规则网易云音乐评论抓取哪里有问题吗?

这个网页其实挺不好采集的,但是用上定位标志映射,就好处理了,定位标志映射可以在网页上划定一个范围,就会变得很精准。参看:https://www.gooseeker.com/doc/article-344-1.html

针对这个网页,具体有下面几点

第一:可以给整个整理箱划定一个范围,就像下图那样,给最顶层的抓取内容容器节点做一个定位标志映射。如果不做这个定位标志的话,爬虫会自动选一个,缺省是优选id,而在网页上,body节点上确实有一个id属性,如果自动选择这个,每个网页的这个id不一样,那么定义好的规则就无法适应所有网页

容器的定位标志20190722120945.png
举报 使用道具
Fuller 管理员 发表于 2019-7-22 12:18:52 | 显示全部楼层
第二点:避免相同结构的网页造成抓取混淆。这里有好几个经验贴:https://www.gooseeker.com/doc/thread-707-1-1.html

对于这个网站,歌手名和专辑,在网页上有相同的结构,而且有相同的class值,下图最下面的红色箭头。如果不手工限制一下的话,爬虫会自动使用这些class值,那么这两个抓取内容就会抓成一样的。上面说的那些经验贴主要就是讨论这个问题。

我选择了一种方法,给这两个抓取内容都做上定位标志映射,选择DOM的父节点的那个class作为定位标志,那么就会区分开两个抓取内容

相同20190722121518.png
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-29 04:23