请教一下:
一级任务运行的正常,网址也都能在二级任务看到,但二级任务只在第一个网址爬,而且不调到下一个网址,这是为什么呢?

任务名称

任务名称
Snipaste_2022-12-09_17-00-22.png

这一页显示已经结束了

这一页显示已经结束了
举报 使用道具
| 回复

共 4 个关于本帖的回复 最后回复于 2022-12-12 18:07

Fuller 管理员 发表于 2022-12-9 18:25:05 | 显示全部楼层
重复内容中断.png
如果是手工启动的采集,要在设置界面上打开重复内容中断。我看到你的规则翻页到最后了,却停不下来,说明这个网页翻页即使到最后还能点击下一页,很多网站就是这么做的。这就需要打开重复内容中断功能。

如果用爬虫群模式,那么要在调度参数里面打开这个选项。
举报 使用道具
kukudeyu 中级会员 发表于 2022-12-12 09:34:16 | 显示全部楼层
噢!好的,我去修改一下,谢谢!
举报 使用道具
kukudeyu 中级会员 发表于 2022-12-12 09:53:56 | 显示全部楼层
Fuller 发表于 2022-12-9 18:25
如果是手工启动的采集,要在设置界面上打开重复内容中断。我看到你的规则翻页到最后了,却停不下来,说明 ...

你好!我修改了设置,改成了重复中断,但是这样修改了以后爬完第一个链接就任务结束了,得手动才能开启新的链接的爬取,这是为什么呢
举报 使用道具
Fuller 管理员 发表于 2022-12-12 18:07:01 | 显示全部楼层
kukudeyu 发表于 2022-12-12 09:53
你好!我修改了设置,改成了重复中断,但是这样修改了以后爬完第一个链接就任务结束了,得手动才能开启新 ...

启动采集的时候,会出现一个弹窗,要求输入采集的线索数量,在那里不要输入1,而是有多少网页( 不包括翻页)就输入多少。

线索数量33.png
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-28 23:09