3 2516

抓取规则出错了

liner_123 于 2024-6-3 14:58 发表 [复制链接]
本帖最后由 liner_123 于 2024-6-3 15:00 编辑

运行“自动搜索关键词”类型的任务总是报错,显示“抓取失败(超时),抓取规则不合适或者超时时间设置太短”,单独运行两级任务,都能成功,连在一起就不行了,不知道哪一步出了问题。
任务名称:人民网_LINER
举报 使用道具
| 回复

共 3 个关于本帖的回复 最后回复于 2024-6-3 20:17

Fuller 管理员 发表于 2024-6-3 15:39:26 | 显示全部楼层
人民网_LINER 这个任务所用的样本页面很特殊,是打开人民网的第一个页面。等输入关键词以后,页面结构就变了。所以,即便你第一次输入关键词成功采集了,等到输入第二个关键词的时候,还是会遇到失败。
所以,使用第二个规则“检索人民网_LINER”所用的样本网页。这个任务可以只定义一个规则,就是“检索人民网_LINER”,这个规则里面既有输入关键词,也有采集列表数据。

你把“检索人民网_LINER”加载到工作台上来(我测试了,能够加载成功),在上面加上连续输入动作。
举报 使用道具
liner_123 新手上路 发表于 2024-6-3 19:25:37 | 显示全部楼层
您好,我按照这个方法试了,使用“检索人民网_LINER”所用的样本网页只定义了一个规则,然后我为了定义采集列表数据,输入了一个前置搜索词,并在步骤2里面定义了采集列表数据;然后在步骤4里面定义了输入和单击动作,搜索我想要的搜索词。但是结果出现了这样的问题:一是爬虫会先对前置搜索词页面进行列表数据采集,而不是先进行搜索;二是爬虫在搜索动作完成之后,页面没有改变,爬虫对原页面进行了二次采集。最终导致输出的Excel表格是重复的前置搜索页面里的信息。请问这种情况要怎么解决呢?另外我不太懂您说的“工作台”的意思
我这次的任务名称:人民网_LINER2
举报 使用道具
liner_123 新手上路 发表于 2024-6-3 20:17:36 | 显示全部楼层
liner_123 发表于 2024-6-3 19:25
您好,我按照这个方法试了,使用“检索人民网_LINER”所用的样本网页只定义了一个规则,然后我为了定义采集 ...

解决了,问题出在那个搜索按钮,五次里面只有两次能搜索出来结果
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 文本聚类分析软件的安装和使用方法
  • 利用AI阅读和分析文本:扣子COZE记录用户反
  • 在网页片段内直观标注——以B站评论采集为
  • 利用AI阅读和分析文本:使用COZE建设游记文
  • 使用AI工具Kimi生成python代码为文本分析结

热门用户

GMT+8, 2024-12-10 10:06