你好,我在采集京东电子书信息,采集电子书信息时设置了纸质书地址作为下一级线索。在采集电子书信息时没有任何问题。
但在采集下一级线索纸质书时,价格不出现,总是显示暂无报价,打开页面时提示输入验证码。我在正常的浏览器中输入地址可以正常显示,但在你们的gooseeker或ms谋数台中打开均是提示输入验证码,不显示价格。请问怎么解决?


本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
| 回复

共 4 个关于本帖的回复 最后回复于 2017-5-27 21:22

沙发
yybpana 新手上路 发表于 2017-5-26 10:30:12 | 只看该作者
  我清理了一些cookie  好像又可以了
举报 使用道具
板凳
Fuller 管理员 发表于 2017-5-26 11:38:41 | 只看该作者
yybpana 发表于 2017-5-26 10:30
我清理了一些cookie  好像又可以了

这是遇到反爬了,应对反爬有很多方法,包括你说的清理cookie,还有换IP,具体参看《怎样应对反爬》。

一般来说,应该把爬虫任务分散到多台电脑上,每个IP发出的网页点击请求数量要限制住,不要激发目标网站的反爬机制。

使用ADSL和光纤等动态IP的线路很有效,万一被封锁了就重新启动光猫,就会换IP
举报 使用道具
地板
yybpana 新手上路 发表于 2017-5-27 21:22:02 | 只看该作者
对于京东,我发现定时清理cookie就可以了,几万页面刷下来也没问题。谢谢您的回复。
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 360或火绒等杀毒软件导致GooSeeker爬虫软件
  • 话题分析(NMF模型和LDA模型)软件的安装和
  • 运行Apple无法验证的程序的方法
  • 文本聚类分析软件的安装和使用方法
  • 利用AI阅读和分析文本:扣子COZE记录用户反

热门用户

GMT+8, 2025-5-5 17:15