http://www.gooseeker.com/doc/article-75-1.html

  • 确定抓取内容

图4 定义第二级抓取规则

将网页上的目标抓取内容映射到整理箱中后保存规则。

  • 启动DS打数机进行抓取


问题:按照教程,我现在在编辑第二级规则。
那么启动DS是在第二级规则上启动吗?
还是在第一级规则上启动?
看后续描述似乎是第一级上启动。

然而,第一级规则启动DS之后,DS只抓了第一级规则的数。
第二级规则启动DS之后,DS只抓了第二级规则的数,并没有实现教程所说的两级抓取。

麻烦看下。






举报 使用道具
| 回复

共 2 个关于本帖的回复 最后回复于 2020-6-8 14:15

Fuller 管理员 发表于 2017-2-7 19:57:38 | 显示全部楼层
多级规则,我们称为层级采集,我估计你已经掌握了层级采集的规则定义方法

如果是手工启动抓取,如果想同时运行两级,那么分别点击这两级规则的“集搜”按钮。单搜的话,只能运行完一个再运行另一个规则。

也可以设置爬虫群模式,给他们配置好调度参数后,各自并行运行,每一级都可以开启多个窗口并行采集
举报 使用道具
goodhanbin 中级会员 发表于 2020-6-8 14:15:57 | 显示全部楼层
第一页时,第一和二级规则,都正常采集,

第一页采集完毕,翻页至第二页时,第二级规则不执行采集,只有第一级规则自动采集,并连续翻页
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 利用AI阅读和分析文本:扣子COZE记录用户反
  • 在网页片段内直观标注——以B站评论采集为
  • 利用AI阅读和分析文本:使用COZE建设游记文
  • 使用AI工具Kimi生成python代码为文本分析结
  • 苹果mac电脑安装集搜客网络爬虫软件失败的

热门用户

GMT+8, 2024-10-7 01:01