任务名是:新报层级抓取第二级72;新加坡邮报第二级。
请问我爬取一个网页(任务“新报层级抓取第二级72”),规则几乎对所有要爬取的链接都适应,采集时长也设置了60s,但为什么还是有一部分内容无法采集成功呢?我反复爬取了三次,都是一样的结果诶,请帮忙看看(标黄的部分内容缺失)然后我刚刚又爬取了一个一千多条链接的网页(任务“新加坡邮报第二级”),又出现了相同的情况,求教~




本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
| 回复

共 1 个关于本帖的回复 最后回复于 2024-3-17 22:58

Fuller 管理员 发表于 2024-3-17 22:58:12 | 显示全部楼层
我加载了你的规则,像下图这样点击测试按钮,看采集规则:

看发布时间这个抓取内容的xpath,可以看出来,是相对于第一个抓取内容“文章标题”的xpath。如果有些网页相对关系有变化,就会采集不到。想避开这个问题的话,可以给“列表”做一个定位映射,这样做以后,所有抓取内容都会相对于“列表”生成xpath

生成的xpath就是这样了:

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 文本聚类分析软件的安装和使用方法
  • 利用AI阅读和分析文本:扣子COZE记录用户反
  • 在网页片段内直观标注——以B站评论采集为
  • 利用AI阅读和分析文本:使用COZE建设游记文
  • 使用AI工具Kimi生成python代码为文本分析结

热门用户

GMT+8, 2024-12-10 09:18