你好,我在采集京东电子书信息,采集电子书信息时设置了纸质书地址作为下一级线索。在采集电子书信息时没有任何问题。
但在采集下一级线索纸质书时,价格不出现,总是显示暂无报价,打开页面时提示输入验证码。我在正常的浏览器中输入地址可以正常显示,但在你们的gooseeker或ms谋数台中打开均是提示输入验证码,不显示价格。请问怎么解决?


QQ截图20170526101732.jpg (134.01 KB, 下载次数: 576)

QQ截图20170526101732.jpg

QQ图片20170526101814.png (559.78 KB, 下载次数: 608)

在正常火狐浏览器打开,可正常显示

在正常火狐浏览器打开,可正常显示

QQ图片20170526102036.png (105.81 KB, 下载次数: 591)

规则截图

规则截图
举报 使用道具
| 回复

共 4 个关于本帖的回复 最后回复于 2017-5-27 21:22

沙发
yybpana 新手上路 发表于 2017-5-26 10:30:12 | 只看该作者
  我清理了一些cookie  好像又可以了
举报 使用道具
板凳
Fuller 管理员 发表于 2017-5-26 11:38:41 | 只看该作者
yybpana 发表于 2017-5-26 10:30
我清理了一些cookie  好像又可以了

这是遇到反爬了,应对反爬有很多方法,包括你说的清理cookie,还有换IP,具体参看《怎样应对反爬》。

一般来说,应该把爬虫任务分散到多台电脑上,每个IP发出的网页点击请求数量要限制住,不要激发目标网站的反爬机制。

使用ADSL和光纤等动态IP的线路很有效,万一被封锁了就重新启动光猫,就会换IP
举报 使用道具
地板
yybpana 新手上路 发表于 2017-5-27 21:22:02 | 只看该作者
对于京东,我发现定时清理cookie就可以了,几万页面刷下来也没问题。谢谢您的回复。
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-19 01:37