具体的抓取页面如下图所示,我自己的思路是用连续动作进行模拟点击,第一级抓取基本信息并设置点击,第二级抓取评论和展开后的回复,但是抓下来的结果是:只有一个回复的回复没有抓下来,有多个回复的回复才能够抓下来。这是什么原因?
抓取的样例网址:https://www.indiegogo.com/projec ... ice-maker#/comments

QQ截图20170214133126.png (82.49 KB, 下载次数: 897)

QQ截图20170214133126.png
举报 使用道具
| 回复

共 9 个关于本帖的回复 最后回复于 2017-2-14 21:57

沙发
HJLing 版主 发表于 2017-2-14 14:21:30 | 只看该作者
主题名是什么
举报 使用道具
板凳
saly123 中级会员 发表于 2017-2-14 17:46:57 | 只看该作者

一级规则的主题名:indiegogo评论信息
二级规则的主题名:indiegogo评论信息1

举报 使用道具
地板
Fuller 管理员 发表于 2017-2-14 18:45:06 | 只看该作者
saly123 发表于 2017-2-14 17:46
一级规则的主题名:indiegogo评论信息
二级规则的主题名:indiegogo评论信息1

第二级的整理箱好复杂,你的GS爬虫的版本是多少?V8.1.3版本有个bug,处理不了这么复杂的整理箱,需要升级到V8.1.4。以前的老版本反而不受影响,就是V8.1.3不行。

我正在测试,加载规则看不出什么问题。抓漏的网址发几个出来

这个网站太慢了,回复信息又不能设置关键内容,抓漏的可能性会比较大
举报 使用道具
5#
Fuller 管理员 发表于 2017-2-14 18:50:09 | 只看该作者

刚才我观察到连see less也点了,不应该这样。

另外比较麻烦的是这是个瀑布流式的,越来越长,see more会越来越多
举报 使用道具
6#
Fuller 管理员 发表于 2017-2-14 18:53:20 | 只看该作者
当我手工点击 show more,看到下一页评论的时候,搜索你定义的点击目标xpath
  1. /html/body/div[position()=2]/div/div/campaign-page/div/campaign-body/div/div[position()=1]/div/div[position()=1]/ui-view/campaign-comments/div[position()=2]/desktop-comment[position()=1]/div/div[position()=2]/div[position()=3]/a
复制代码


仍然只能搜索到第一个,显然这个xpath不对,现在网页上有两个see more replies


举报 使用道具
7#
saly123 中级会员 发表于 2017-2-14 19:38:23 | 只看该作者
Fuller 发表于 2017-2-14 18:53
当我手工点击 show more,看到下一页评论的时候,搜索你定义的点击目标xpath

仍然只能搜索到第一个,显然 ...

那怎么样才能够将评论和回复都抓全?Xpath应该怎么样定义才能够第二级内容不是只抓第一个评论的内容?
举报 使用道具
8#
Fuller 管理员 发表于 2017-2-14 21:38:49 | 只看该作者
saly123 发表于 2017-2-14 19:38
那怎么样才能够将评论和回复都抓全?Xpath应该怎么样定义才能够第二级内容不是只抓第一个评论的内容?
...

我感觉似乎不点击 see more 也能抓取到回复,你试试。我现在试不了,家里的电脑连不上这个网站。这样的话,不要第一级主题,只运行第二级就行了
举报 使用道具
9#
saly123 中级会员 发表于 2017-2-14 21:56:22 | 只看该作者
Fuller 发表于 2017-2-14 21:38
我感觉似乎不点击 see more 也能抓取到回复,你试试。我现在试不了,家里的电脑连不上这个网站。这样的话 ...

什么意思?是不要连续动作吗?不要see more的话,回复怎么能够展开然后进一步抓取呢?

举报 使用道具
10#
saly123 中级会员 发表于 2017-2-14 21:57:28 | 只看该作者
Fuller 发表于 2017-2-14 21:38
我感觉似乎不点击 see more 也能抓取到回复,你试试。我现在试不了,家里的电脑连不上这个网站。这样的话 ...

抓取的国外的网站,所以加载比较慢

举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-15 20:21