规则名    盛泽销售坯布
问题    连续抓到5页就中断
已经查到问题   已经确定是爬虫路线遇到的错误了 ---,网页结构发生变化
该怎么解决呢?

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
| 回复

共 2 个关于本帖的回复 最后回复于 2017-8-29 18:46

沙发
bowieD 金牌会员 发表于 2017-8-29 17:43:52 | 只看该作者
本帖最后由 bowieD 于 2017-8-29 17:46 编辑

网页结构发生变化而抓取失败,我看了下你的规则,可以不用样例复制,直接给整理箱做定位映射标记,因为你的网页的每一个区块节点都有相同的@class值,直接用定位映射标记可以实现样例复制效果,也不会因为网页结构变化而发生翻页中断。参考《定位标志批量采集相同定位信息》

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
板凳
bowieD 金牌会员 发表于 2017-8-29 18:46:14 | 只看该作者
你的网站翻页比较特殊,不能用记号线索实现翻页。由于你的网站每个页码都有独立的网址,而且都有规律,那么你可以通过Excel表的下拉获取所有页码的网址,
这就达到一行一个网址的目的,,通过批量导入网址线索来抓取你所有想要的内容。批量导入线索:进入会员中心,找到规则,在规则管理那里有导入线索的链接。详情参考《如何管理规则的线索》
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 360或火绒等杀毒软件导致GooSeeker爬虫软件
  • 话题分析(NMF模型和LDA模型)软件的安装和
  • 运行Apple无法验证的程序的方法
  • 文本聚类分析软件的安装和使用方法
  • 利用AI阅读和分析文本:扣子COZE记录用户反

热门用户

GMT+8, 2025-5-26 07:38