规则的主题名:indiegogo评论信息2
抓取的时候评论的内容会多抓一次,并且归类为回复的内容,这是什么原因?

举报 使用道具
| 回复

共 22 个关于本帖的回复 最后回复于 2017-2-15 17:58

沙发
xandy 论坛元老 发表于 2017-2-15 10:37:22 | 只看该作者
你的规则里要抓取回复内容,但并不是每条评论都有回复内容,然而为了抓回复内容,样例的第一条必须要有回复内容,这样可以对其映射回复内容的规则。
你选取的样本网址尽量第一条评论中有回复内容,没有的话就自己构造。
举报 使用道具
板凳
saly123 中级会员 发表于 2017-2-15 10:40:04 | 只看该作者
xandy 发表于 2017-2-15 10:37
你的规则里要抓取回复内容,但并不是每条评论都有回复内容,然而为了抓回复内容,样例的第一条必须要有回复 ...

这是另外一个规则,主题名是indiegogo评论信息3,第一个评论有回复,但是抓取的内容还是重复的
举报 使用道具
地板
xandy 论坛元老 发表于 2017-2-15 10:43:49 | 只看该作者
saly123 发表于 2017-2-15 10:40
这是另外一个规则,主题名是indiegogo评论信息3,第一个评论有回复,但是抓取的内容还是重复的
...

你的规则名是不是写错了,并没有这个规则
举报 使用道具
5#
saly123 中级会员 发表于 2017-2-15 11:02:20 | 只看该作者
xandy 发表于 2017-2-15 10:43
你的规则名是不是写错了,并没有这个规则

是错了,是indiegogo投资信息3,你帮我看一下吧
举报 使用道具
6#
xandy 论坛元老 发表于 2017-2-15 11:26:26 | 只看该作者
saly123 发表于 2017-2-15 11:02
是错了,是indiegogo投资信息3,你帮我看一下吧

问题诊断:
简单说下为什么回复内容和评论内容一样,那就是定位的问题,假如说回复的定位的是评论,那么抓到的就会是评论。
你可能会问,我没有做定位啊,有时候规则优先生成的定位可能不适用,所以需要自己进行定位来提高规则的适用性。
如下图所示:

点击数据规则后,看到回复定位匹配的是
  1. //*[@class='commentLayout-header']
复制代码
将其复制进xpath搜索框,可以看到该定位定位到的是评论人所在的节点

这就是回复内容和评论一样的原因所在。

解决方案:
先点击回复框,然后在DOM解析树里头找到对应的节点,将该节点定位标志映射给回复。
到这一步还不够,你要重新给“回复人”和“回复内容”做内容映射。

测试后结果正常了。


举报 使用道具
7#
xandy 论坛元老 发表于 2017-2-15 11:28:17 | 只看该作者
saly123 发表于 2017-2-15 11:02
是错了,是indiegogo投资信息3,你帮我看一下吧

通过定位标志映射提高规则的适用性,参看教程《定位标志精确采集范围——以安居客租房采集为例
ps:明白原理比较重要,这样下次碰到类似的问题就可以自己解决了。
举报 使用道具
8#
saly123 中级会员 发表于 2017-2-15 11:30:43 | 只看该作者
xandy 发表于 2017-2-15 11:26
问题诊断:
简单说下为什么回复内容和评论内容一样,那就是定位的问题,假如说回复的定位的是评论,那么 ...

那这样那个的话,see 1 more replies里面的回复内容就抓不到了啊

举报 使用道具
9#
xandy 论坛元老 发表于 2017-2-15 11:34:05 | 只看该作者
saly123 发表于 2017-2-15 11:30
那这样那个的话,see 1 more replies里面的回复内容就抓不到了啊

see 1 more replies,要先点击后才能看到,这个要定义连续动作,用连续动作点击展开后再采集,连续动作教程你先去了解吧。
举报 使用道具
10#
saly123 中级会员 发表于 2017-2-15 11:36:42 | 只看该作者
xandy 发表于 2017-2-15 11:34
see 1 more replies,要先点击后才能看到,这个要定义连续动作,用连续动作点击展开后再采集,连续动作教 ...

之前问过,不需要连续动作,你将定位改了之后就抓不到展开后的回复内容了,但是如果不使用你的那个解决办法进行定位的话就可以抓到隐藏的回复内容。这该怎么破?

举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-27 21:05