我以前做了一个规则,现在爬数据出错了,我想直接在数据管家中加载修改这个规则,点击数据管家边栏的+号,新建任务后,在跳出来的定义规则页面,加载规则,提示未找到文件,弹出这个窗口:


举报 使用道具
| 回复

共 1 个关于本帖的回复 最后回复于 2020-6-24 23:06

沙发
Fuller 管理员 发表于 2020-6-24 23:06:43 | 只看该作者
参照这个教程:https://www.gooseeker.com/doc/article-509-1.html 。使用集搜客数据管家集搜客网络爬虫配合在一起定义爬虫规则。原理是这样的:

1,在集搜客数据管家上加载了样本页面,一点击左栏顶部的创建任务按钮,就会给样本页面做一个网页快照,存在电脑硬盘上
2,同时会把集搜客网络爬虫运行起来,并加载这个网页快照
3,定义的规则实际上是针对这个网页快照的。当然也能采集网站上的实际网页。

下载加载这个规则的时候,如果还在这台电脑上加载,那么不会出现问题,集搜客网络爬虫会再次把网页快照加载上来。但是,如果换了一台电脑加载规则,就会找不到样本页面。

解决这个问题的方法是:
1,在网站上选一个实际的页面,用数据管家加载
2,点击数据管家左栏上的创建任务按钮,把集搜客网络爬虫自动运行起来
3,在搜规则工作台上搜到这个规则
4,【注意】此时必须使用“加载(仅规则)”菜单,而不能用“加载”菜单,因为样本页面已经加载到集搜客网络爬虫上了。
后续的操作跟普通的修改规则操作一样,参看:https://www.gooseeker.com/doc/article-124-1.html


举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-20 17:42