https://www.nvshens.com/g/23338/7.html
这个网站最后一页爬取完又会跳到第一也重复爬取  怎么设置终止呢?  软件哪个检测重复停止的功能在这个网页派不上用场

举报 使用道具
| 回复

共 3 个关于本帖的回复 最后回复于 2018-10-25 10:12

沙发
wxyckkk 初级会员 发表于 2018-10-23 21:27:06 | 只看该作者
比如例子这个网页 爬取完第7页 又回第一页重复爬取
举报 使用道具
板凳
Fuller 管理员 发表于 2018-10-24 09:16:10 | 只看该作者
这种需要手工修改翻页规则,经过观察,当前页码是一个span,那么如果“下一页”的前一个节点是span,就不点击了。
手工修改规则一定要注意存规则的顺序,因为自动生成规则会冲掉手工修改的内容。
第一步,按照正常定义规则的过程,把规则定义好
第二步,点击工具条上的“存规则”,把自动生成的规则存好
第三步,在“爬虫路线”工作台上点击查看规则按钮,可以看到翻页规则,是一个xpath
第四步,直接修改xpath,然后点击旁边的“保存修改”
这样手工修改就生效了
举报 使用道具
地板
wxyckkk 初级会员 发表于 2018-10-25 10:12:27 | 只看该作者
Fuller 发表于 2018-10-24 09:16
这种需要手工修改翻页规则,经过观察,当前页码是一个span,那么如果“下一页”的前一个节点是span,就不点 ...

我就会简单的操作。。。这个改代码对我来说有点复杂了。。。T-T
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 360或火绒等杀毒软件导致GooSeeker爬虫软件
  • 话题分析(NMF模型和LDA模型)软件的安装和
  • 运行Apple无法验证的程序的方法
  • 文本聚类分析软件的安装和使用方法
  • 利用AI阅读和分析文本:扣子COZE记录用户反

热门用户

GMT+8, 2025-5-14 22:39