有批量相同结构的网页清单,单个网页里有翻页。所以又设置了爬取路线。做好规则试了一下,发现输的是网页A,抓的缺是B,这是咋么回事?

举报 使用道具
| 回复

共 6 个关于本帖的回复 最后回复于 2017-2-21 11:20

沙发
Fuller 管理员 发表于 2017-2-20 19:54:39 | 只看该作者
是翻页的时候,下一页抓错了?还是网页清单中两个不同的网页,他们的第一页就抓错了?
举报 使用道具
板凳
ovna123 金牌会员 发表于 2017-2-21 09:02:00 | 只看该作者
两个网址,选的A, 结果抓的B。
举报 使用道具
地板
Fuller 管理员 发表于 2017-2-21 09:52:57 | 只看该作者
ovna123 发表于 2017-2-21 09:02
两个网址,选的A, 结果抓的B。

A和B的抓取时间循序是什么?哪个在前?B是前一个网址的内容?

你可以把两个结果文件贴出来我看看具体现象是什么
举报 使用道具
5#
ovna123 金牌会员 发表于 2017-2-21 10:12:23 | 只看该作者
今天再运行,又正常了。
举报 使用道具
6#
Fuller 管理员 发表于 2017-2-21 10:48:35 | 只看该作者
ovna123 发表于 2017-2-21 10:12
今天再运行,又正常了。

如果是翻页过程,抓当前页却抓了上一页,那可能是网络太慢造成的,要把“延迟抓取”参数设置长一些,多等待一些时间。

如果是独立线索之间出现这个问题,如果运行爬虫群模式,可以设置调度参数 线索间等待最短时间 和 线索间等待最长时间 ,而且后者要小于前者。

线索间出现错抓的可能性很小,如果遇到,通知我们
举报 使用道具
7#
ovna123 金牌会员 发表于 2017-2-21 11:20:15 | 只看该作者
好的
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 遇到“无法识别的应用”告警怎么办?
  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件

热门用户

GMT+8, 2024-6-13 23:25