技术小白,使用的是GS浏览器和首页的快捷采集。要爬的知乎页面有900多条回答,但采集只能采到78条,观察了一下采集的过程,应该是下拉加载到中途卡住不动(已经加载出后面的内容了),然后就显示已采集完毕了 日志消息是“没有线索了,可添加新线索或者激活已有的线索”
求解如何解决,谢谢各位大神!采集的页面是https://www.zhihu.com/question/57763089


举报 使用道具
| 回复

共 7 个关于本帖的回复 最后回复于 2018-1-11 14:10

沙发
数据集二期 中级会员 发表于 2018-1-11 09:16:01 | 只看该作者
昨天发布了一个最新的版本,解决有短视频网页无法滚屏的bug,可以重新下载软件使用试试。《下载链接
举报 使用道具
板凳
sakaivita 新手上路 发表于 2018-1-11 11:43:10 | 只看该作者
数据集二期 发表于 2018-1-11 09:16
昨天发布了一个最新的版本,解决有短视频网页无法滚屏的bug,可以重新下载软件使用试试。《下载链接》 ...

谢谢!用了最新版确实能多采集一点,但是也只有采到83条,离实际回答数还是差挺多。是否需要修改其他设置?
举报 使用道具
地板
Fuller 管理员 发表于 2018-1-11 11:55:16 | 只看该作者
sakaivita 发表于 2018-1-11 11:43
谢谢!用了最新版确实能多采集一点,但是也只有采到83条,离实际回答数还是差挺多。是否需要修改其他设置 ...

主题名是什么?我们测试一下
举报 使用道具
5#
sakaivita 新手上路 发表于 2018-1-11 12:25:43 | 只看该作者
Fuller 发表于 2018-1-11 11:55
主题名是什么?我们测试一下

谢谢!主题是知乎_独立问题所有回复采集,页面是https://www.zhihu.com/question/57763089

举报 使用道具
6#
Fuller 管理员 发表于 2018-1-11 13:53:35 | 只看该作者
sakaivita 发表于 2018-1-11 12:25
谢谢!主题是知乎_独立问题所有回复采集,页面是https://www.zhihu.com/question/57763089

...

这个网页是瀑布流的,你做了一个翻页线索,根据“查看更多回答”翻页,我看到的瀑布流网页没有这个翻页标志。

这个瀑布流网页是没有尽头的,应该用连续动作中的连续滚屏,而且应该点击“高级设置”,在清除老数据中设置要清楚的老数据的xpath,否则,如果回复太多,滚屏到一定程度就会把内容全部耗光,造成程序崩溃
举报 使用道具
7#
Fuller 管理员 发表于 2018-1-11 13:54:38 | 只看该作者
清除老数据的方法参看:http://www.gooseeker.com/doc/article-406-1.html ,旗舰版才有这个功能
举报 使用道具
8#
sakaivita 新手上路 发表于 2018-1-11 14:10:13 | 只看该作者
Fuller 发表于 2018-1-11 13:54
清除老数据的方法参看:http://www.gooseeker.com/doc/article-406-1.html ,旗舰版才有这个功能 ...

明白了,我学一下,谢谢!
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 360或火绒等杀毒软件导致GooSeeker爬虫软件
  • 话题分析(NMF模型和LDA模型)软件的安装和
  • 运行Apple无法验证的程序的方法
  • 文本聚类分析软件的安装和使用方法
  • 利用AI阅读和分析文本:扣子COZE记录用户反

热门用户

GMT+8, 2025-5-12 04:09