12 11980

多个关键词抓取出错

z417566919 于 2021-11-2 08:41 发表 [复制链接]
我的采集任务叫“油气储运关键词检索”,在输入动作里设置了多个关键词,用“;;”分隔,但是运行结果并不是按输入的关键词检索的,请问这里应该如何设置?
举报 使用道具
| 回复

共 12 个关于本帖的回复 最后回复于 2021-11-2 14:17

gz51837844 管理员 发表于 2021-11-2 09:15:56 | 显示全部楼层
我们上午安排技术测试下你的任务
举报 使用道具
Fuller 管理员 发表于 2021-11-2 09:21:13 | 显示全部楼层
要在第二级所用的样本页面上定义输入动作。不然的话,输入完第一个关键词以后,网页就变成第二级那样的页面了,再想输入第二个关键词,就定位不到输入位置了
举报 使用道具
z417566919 中级会员 发表于 2021-11-2 09:29:48 | 显示全部楼层
Fuller 发表于 2021-11-2 09:21
要在第二级所用的样本页面上定义输入动作。不然的话,输入完第一个关键词以后,网页就变成第二级那样的页面 ...

麻烦再看一下“油气储运详情页面数据抓取”这个采集任务,设置周期采集后,并没有执行,是设置有问题么? 123.jpg
举报 使用道具
gz51837844 管理员 发表于 2021-11-2 09:56:22 | 显示全部楼层
z417566919 发表于 2021-11-2 09:29
麻烦再看一下“油气储运详情页面数据抓取”这个采集任务,设置周期采集后,并没有执行,是设置有问题么? ...

你看一下这个任务有没有“待抓取”状态的网址?
举报 使用道具
z417566919 中级会员 发表于 2021-11-2 10:12:40 | 显示全部楼层
本帖最后由 z417566919 于 2021-11-2 10:13 编辑
gz51837844 发表于 2021-11-2 09:56
你看一下这个任务有没有“待抓取”状态的网址?

有啊,可定是有的 345.jpg
举报 使用道具
gz51837844 管理员 发表于 2021-11-2 10:20:14 | 显示全部楼层
z417566919 发表于 2021-11-2 10:12
有啊,可定是有的

调度里的那个定时时间设定,是指到时间后激活网址。 如果本身已经有“待抓取”网址并且开启了调度,只要你打开爬虫群窗口(用爬虫群采集数据),就会自动抓取。

举报 使用道具
z417566919 中级会员 发表于 2021-11-2 10:46:11 | 显示全部楼层
gz51837844 发表于 2021-11-2 10:20
调度里的那个定时时间设定,是指到时间后激活网址。 如果本身已经有“待抓取”网址并且开启了调度,只要 ...

我设置完之后,还要点击“启动爬虫群”?这样的话,不就是立刻执行抓取了么?也不是按照我设置的时间自动启动抓取啊? 11.png
举报 使用道具
gz51837844 管理员 发表于 2021-11-2 10:57:39 | 显示全部楼层
z417566919 发表于 2021-11-2 10:46
我设置完之后,还要点击“启动爬虫群”?这样的话,不就是立刻执行抓取了么?也不是按照我设置的时间自动 ...

举例来说:
你的任务A, 有网址100条, 状态是”已采集“
现在时间是10:53
如果你现在设置调度, 定时在今天”12:45”抓取, 然后启动爬虫群窗口。
1. 从现在到12:45 , 由于没有网址是”待采集“状态, 没有实际的爬取动作
2. 到了12:45, 100条网址状态会变成”待采集“, 爬虫群窗口开始爬取
举报 使用道具
z417566919 中级会员 发表于 2021-11-2 11:55:03 | 显示全部楼层
gz51837844 发表于 2021-11-2 10:57
举例来说:
你的任务A, 有网址100条, 状态是”已采集“
现在时间是10:53

我的采集任务A是一级采集任务,启动采集之后,给任务B添加了很多条“待采集”网址条目,现在任务A设置周期采集了,但是任务B 没有自动采集,只是多了“待采集”的网址,是不是任务B也要设置周期采集呢?
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-29 05:18