13 11758

采集失败原因

18443172656 于 2021-3-11 12:10 发表 [复制链接]
我需要采集的网站有大概有4000页,每次采集到90页左右就会加载不出网页,翻页失败,日志显示:抓取超时,或规则不适用,怎么回事
举报 使用道具
| 回复

共 13 个关于本帖的回复 最后回复于 2021-3-11 20:47

wangyong 版主 发表于 2021-3-11 14:50:02 | 显示全部楼层
你可以把超时时长调高一点,看看网页加载时间调大以后能不能加载出来内容来

同时可以把滚屏打开

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
Fuller 管理员 发表于 2021-3-11 14:50:37 | 显示全部楼层
什么网站?把网址发出来
举报 使用道具
18443172656 中级会员 发表于 2021-3-11 16:34:42 | 显示全部楼层
wangyong 发表于 2021-3-11 14:50
你可以把超时时长调高一点,看看网页加载时间调大以后能不能加载出来内容来

同时可以把滚屏打开

时长加大到600秒依然不行,每次都是到90页左右就会失败,三次了,会不会是网站有限制?

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
18443172656 中级会员 发表于 2021-3-11 16:34:53 | 显示全部楼层
举报 使用道具
Fuller 管理员 发表于 2021-3-11 17:02:52 | 显示全部楼层
18443172656 发表于 2021-3-11 16:34
https://esm.mi.ingv.it/DYNA-stage/CadmoDriver?_action_prepare_find_div=1&_page=ACC_Events_Stations ...

可能有翻页限制。我本来想手工翻页到90页试试,但是这个网页太慢了,没法手工验证
举报 使用道具
Fuller 管理员 发表于 2021-3-11 17:07:20 | 显示全部楼层
我试了一下翻页到最后一页,这是可以的,看来没有翻页限制,就是太慢了。

很可能到后面以后,网页结构变了,所以就采集失败了。那么可以翻到最后一页,用爬虫规则分析一下页面试试
举报 使用道具
Fuller 管理员 发表于 2021-3-11 17:07:37 | 显示全部楼层
你的规则名字是什么?
举报 使用道具
Fuller 管理员 发表于 2021-3-11 17:08:50 | 显示全部楼层
我从最后一页倒着往前翻,估计10分钟都不够,很可能还是超时时常不够造成的
举报 使用道具
18443172656 中级会员 发表于 2021-3-11 17:36:05 | 显示全部楼层
Fuller 发表于 2021-3-11 17:07
我试了一下翻页到最后一页,这是可以的,看来没有翻页限制,就是太慢了。

很可能到后面以后,网页结构变了 ...

规则名是:esm采集1

举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 利用AI阅读和分析文本:扣子COZE记录用户反
  • 在网页片段内直观标注——以B站评论采集为
  • 利用AI阅读和分析文本:使用COZE建设游记文
  • 使用AI工具Kimi生成python代码为文本分析结
  • 苹果mac电脑安装集搜客网络爬虫软件失败的

热门用户

GMT+8, 2024-10-5 17:09