http://www.gooseeker.com/doc/article-75-1.html

  • 确定抓取内容

图4 定义第二级抓取规则

将网页上的目标抓取内容映射到整理箱中后保存规则。

  • 启动DS打数机进行抓取


问题:按照教程,我现在在编辑第二级规则。
那么启动DS是在第二级规则上启动吗?
还是在第一级规则上启动?
看后续描述似乎是第一级上启动。

然而,第一级规则启动DS之后,DS只抓了第一级规则的数。
第二级规则启动DS之后,DS只抓了第二级规则的数,并没有实现教程所说的两级抓取。

麻烦看下。






举报 使用道具
| 回复

共 2 个关于本帖的回复 最后回复于 2020-6-8 14:15

沙发
Fuller 管理员 发表于 2017-2-7 19:57:38 | 只看该作者
多级规则,我们称为层级采集,我估计你已经掌握了层级采集的规则定义方法

如果是手工启动抓取,如果想同时运行两级,那么分别点击这两级规则的“集搜”按钮。单搜的话,只能运行完一个再运行另一个规则。

也可以设置爬虫群模式,给他们配置好调度参数后,各自并行运行,每一级都可以开启多个窗口并行采集
举报 使用道具
板凳
goodhanbin 中级会员 发表于 2020-6-8 14:15:57 | 只看该作者
第一页时,第一和二级规则,都正常采集,

第一页采集完毕,翻页至第二页时,第二级规则不执行采集,只有第一级规则自动采集,并连续翻页
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 怎样让GooSeeker分词工具使用宋体画词云图
  • 使用BERTopic时遇到的c-TF-IDF是什么?
  • gooseeker分词工具的命名实体识别和词形还
  • 怎样设置LDA模型的超参数alpha(α)和beta(
  • LDA主题分析模型到底是什么?

热门用户

GMT+8, 2026-5-29 07:39