我的网页数据采集到100多页就停了,怎么解决啊
QQ图片20161020104934.png

举报 使用道具
| 回复

共 3 个关于本帖的回复 最后回复于 2016-10-20 10:55

ym 版主 发表于 2016-10-20 10:52:47 | 显示全部楼层
看到图片里的剩余线索旁边的状态是FIN,说明是采集完成了,估计是网站有限制翻页吧,也可能是采集多了不给翻更多页了。
可能的原因可以看看这篇文章http://www.gooseeker.com/doc/thread-616-1-1.html
举报 使用道具
Dave希泽 初级会员 发表于 2016-10-20 10:54:02 | 显示全部楼层
ym 发表于 2016-10-20 10:52
看到图片里的剩余线索旁边的状态是FIN,说明是采集完成了,估计是网站有限制翻页吧,也可能是采集多了不给 ...

是网站的原因,翻页多了就不行
举报 使用道具
ym 版主 发表于 2016-10-20 10:55:47 | 显示全部楼层
如果每一页有独立网址的话,可以构造每页网址来采集。具体参考文章http://www.gooseeker.com/doc/thread-1299-1-1.html
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-19 09:22