(1)我的规则名是:洼里_数据爬取1

(2)以Li为单位,作为第一个样例复制,下一个评论的Li作为第二个样例复制,这样还是会漏掉好多评论

(3)测试的时候,如下图的评论就没有爬取到



举报 使用道具
| 回复

共 12 个关于本帖的回复 最后回复于 2019-4-30 09:54

沙发
Fuller 管理员 发表于 2019-1-9 10:45:56 | 只看该作者
我看到你的规则主题名是“洼里_数据爬取”,加载后发现你设置了绝对定位,这样应该就不会有漏的了,我怀疑漏的原因是有些评论内容比较短,不需要点击展开。假设使用“偏好class”,得到的规则如下图

最后两个抓取内容都设置了关键内容,如果抓取不到,就会整条评论都不抓。看生成的规则,如果勾选了偏好class,会自动使用DOM节点的class值,如果内容短的,可能class值不一样,就抓不到了
举报 使用道具
板凳
pipi1519 初级会员 发表于 2019-1-9 11:11:43 | 只看该作者
Fuller 发表于 2019-1-9 10:45
我看到你的规则主题名是“洼里_数据爬取”,加载后发现你设置了绝对定位,这样应该就不会有漏的了,我怀疑 ...

您说的我没看懂该怎么修改。
(1)我做了两个规则,第一个是“洼里_数据爬取”,但是选取的那个页面的评论全是需要点击“展开评论”的,所以我就换成第二页重新做了“洼里_数据爬取1”这个规则,在第二页里,有短评论不需要点击“展开评论”,方便测试规则是否做的合适。
(2)在“洼里_数据爬取1”里,“评论”这个抓取内容的xPath是“*//*[@class='review-words Hide' or @class='review-words']”,是希望既能爬取到不用点击“展开评论”的评论,也能爬取需要点击“展开评论”的评论,测试里的结果如下图,不知道最后输出结果时,评论是否是完整的文字?

(3)“展开评论”这个抓取内容如上图所示也能抓到内容。
(4)您评论的“评论”和“展开评论”这两个抓取内容都勾选了“关键内容”是什么意思?我是需要删除“展开评论”这个抓取内容吗?,但是我删除了“展开评论”这个抓取内容后,我点测试,还是会少很多内容,请问应该怎么修改?


举报 使用道具
地板
pipi1519 初级会员 发表于 2019-1-9 18:53:42 | 只看该作者
有没有人可以帮我解决这个问题啊
举报 使用道具
5#
Fuller 管理员 发表于 2019-1-9 19:51:18 | 只看该作者
pipi1519 发表于 2019-1-9 18:53
有没有人可以帮我解决这个问题啊



红框这个就漏了,仔细看生成的数据规则,position()=6,而这个评论的div总共才有5个,所以,就抓不到了。你这个抓取内容又设置了“关键内容”,如果不设置关键内容,可以抓到空内容,设置了关键内容,空的就会跳过去。关键内容的设置如下图


解决方法:用定位标志映射,就能避免用position()函数


定位标志映射的方法:
1,选中含有class或者id值的DOM节点
2,鼠标右键菜单 定位标志映射,映射给整理箱中的抓取内容
举报 使用道具
6#
pipi1519 初级会员 发表于 2019-1-9 20:51:22 | 只看该作者
Fuller 发表于 2019-1-9 19:51
红框这个就漏了,仔细看生成的数据规则,position()=6,而这个评论的div总共才有5个,所以,就抓不到了 ...

非常感谢,这个问题解决了,但是还有问题,评论部分有的需要点击“展开评论”,有的则不需要,我在“展开评论”那儿设了抓取内容,XPath是这样写的
*//*[@class='review-words Hide' or @class = 'review-words']
抓取到的内容很奇怪,会少很多文字,本该是文字的部分,出现代码,如下面两各图


请问这个该怎么解决,规则名是“洼里_数据爬取1”


举报 使用道具
7#
pipi1519 初级会员 发表于 2019-1-9 20:54:26 | 只看该作者
pipi1519 发表于 2019-1-9 20:51
非常感谢,这个问题解决了,但是还有问题,评论部分有的需要点击“展开评论”,有的则不需要,我在“展开 ...

图片补充在这里


举报 使用道具
8#
Fuller 管理员 发表于 2019-1-9 21:23:31 | 只看该作者
pipi1519 发表于 2019-1-9 20:54
图片补充在这里

大众点评网上的文字是加了密的,要特殊处理,目前我们还没有针对这个网站的处理程序
举报 使用道具
9#
pipi1519 初级会员 发表于 2019-1-11 10:46:18 | 只看该作者
Fuller 发表于 2019-1-9 21:23
大众点评网上的文字是加了密的,要特殊处理,目前我们还没有针对这个网站的处理程序 ...

请问解决大众点评文字加密,你们近期会处理吗,最近急需爬到评论
举报 使用道具
10#
pipi1519 初级会员 发表于 2019-1-11 10:46:28 | 只看该作者
Fuller 发表于 2019-1-9 21:23
大众点评网上的文字是加了密的,要特殊处理,目前我们还没有针对这个网站的处理程序 ...

请问解决大众点评文字加密,你们近期会处理吗,最近急需爬到评论
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-26 06:36