集搜客GooSeeker网络爬虫

标题: 连续动作抓取评论和回复 [打印本页]

作者: saly123    时间: 2017-2-14 13:34
标题: 连续动作抓取评论和回复
具体的抓取页面如下图所示,我自己的思路是用连续动作进行模拟点击,第一级抓取基本信息并设置点击,第二级抓取评论和展开后的回复,但是抓下来的结果是:只有一个回复的回复没有抓下来,有多个回复的回复才能够抓下来。这是什么原因?
抓取的样例网址:https://www.indiegogo.com/projec ... ice-maker#/comments

作者: HJLing    时间: 2017-2-14 14:21
主题名是什么
作者: saly123    时间: 2017-2-14 17:46
HJLing 发表于 2017-2-14 14:21
主题名是什么

一级规则的主题名:indiegogo评论信息
二级规则的主题名:indiegogo评论信息1


作者: Fuller    时间: 2017-2-14 18:45
saly123 发表于 2017-2-14 17:46
一级规则的主题名:indiegogo评论信息
二级规则的主题名:indiegogo评论信息1

第二级的整理箱好复杂,你的GS爬虫的版本是多少?V8.1.3版本有个bug,处理不了这么复杂的整理箱,需要升级到V8.1.4。以前的老版本反而不受影响,就是V8.1.3不行。

我正在测试,加载规则看不出什么问题。抓漏的网址发几个出来

这个网站太慢了,回复信息又不能设置关键内容,抓漏的可能性会比较大

作者: Fuller    时间: 2017-2-14 18:50
[attach]5130[/attach]
刚才我观察到连see less也点了,不应该这样。

另外比较麻烦的是这是个瀑布流式的,越来越长,see more会越来越多

作者: Fuller    时间: 2017-2-14 18:53
当我手工点击 show more,看到下一页评论的时候,搜索你定义的点击目标xpath
  1. /html/body/div[position()=2]/div/div/campaign-page/div/campaign-body/div/div[position()=1]/div/div[position()=1]/ui-view/campaign-comments/div[position()=2]/desktop-comment[position()=1]/div/div[position()=2]/div[position()=3]/a
复制代码


仍然只能搜索到第一个,显然这个xpath不对,现在网页上有两个see more replies



作者: saly123    时间: 2017-2-14 19:38
Fuller 发表于 2017-2-14 18:53
当我手工点击 show more,看到下一页评论的时候,搜索你定义的点击目标xpath

仍然只能搜索到第一个,显然 ...

那怎么样才能够将评论和回复都抓全?Xpath应该怎么样定义才能够第二级内容不是只抓第一个评论的内容?

作者: Fuller    时间: 2017-2-14 21:38
saly123 发表于 2017-2-14 19:38
那怎么样才能够将评论和回复都抓全?Xpath应该怎么样定义才能够第二级内容不是只抓第一个评论的内容?
...

我感觉似乎不点击 see more 也能抓取到回复,你试试。我现在试不了,家里的电脑连不上这个网站。这样的话,不要第一级主题,只运行第二级就行了

作者: saly123    时间: 2017-2-14 21:56
Fuller 发表于 2017-2-14 21:38
我感觉似乎不点击 see more 也能抓取到回复,你试试。我现在试不了,家里的电脑连不上这个网站。这样的话 ...

什么意思?是不要连续动作吗?不要see more的话,回复怎么能够展开然后进一步抓取呢?


作者: saly123    时间: 2017-2-14 21:57
Fuller 发表于 2017-2-14 21:38
我感觉似乎不点击 see more 也能抓取到回复,你试试。我现在试不了,家里的电脑连不上这个网站。这样的话 ...

抓取的国外的网站,所以加载比较慢






欢迎光临 集搜客GooSeeker网络爬虫 (https://www.gooseeker.com/doc/) Powered by Discuz! X3.2