7 1792

翻页问题

青海伏明霞 于 2024-1-17 18:06 发表 [复制链接]
根据第二张图设置的翻页规则,点击指定位置翻页,我在采集数据的时候设置翻页10次,但每次都是2页的数据

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
| 回复

共 7 个关于本帖的回复 最后回复于 2024-1-18 16:07

青海伏明霞 初级会员 发表于 2024-1-17 18:10:43 | 显示全部楼层
规则编号:规则_1
举报 使用道具
gz51837844 管理员 发表于 2024-1-17 18:31:14 | 显示全部楼层
你这个任务的任务名是什么?
管理员在后台查询“青海伏明霞”这个用户名下面没有任何已保存的任务。
举报 使用道具
Fuller 管理员 发表于 2024-1-17 22:52:19 | 显示全部楼层
把这里改成 偏好ID ,试一试

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
青海伏明霞 初级会员 发表于 2024-1-18 09:37:25 | 显示全部楼层
gz51837844 发表于 2024-1-17 18:31
你这个任务的任务名是什么?
管理员在后台查询“青海伏明霞”这个用户名下面没有任何已保存的任务。
...

CanadaNews

举报 使用道具
gz51837844 管理员 发表于 2024-1-18 10:24:28 | 显示全部楼层

图中初始的@class值是sclt-loadmore1。。。。, 翻了一页后会变成sclt-loadmore2。。。
这样翻页的xpath就找不到了,翻页就结束了。
做翻页映射时: 可以试试用图中的BUTTON的父节点的@class值映射翻页记号,避开翻页后@class值会改变的节点

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
青海伏明霞 初级会员 发表于 2024-1-18 11:00:26 | 显示全部楼层
Fuller 发表于 2024-1-17 22:52
把这里改成 偏好ID ,试一试

我设置了偏好id可以加载下面的,但是这个网页是是继续加载这种,一触发加载就重新爬这个页面所有数据,导致非常多的重复数据
举报 使用道具
Fuller 管理员 发表于 2024-1-18 16:07:58 | 显示全部楼层
青海伏明霞 发表于 2024-1-18 11:00
我设置了偏好id可以加载下面的,但是这个网页是是继续加载这种,一触发加载就重新爬这个页面所有数据,导 ...

持续加载的网页没有办法避免重复,因为以前加载的网页内容还在网页上,会一起采集下来。可以爬到最后一页以后,只把最后一个xml导入数据库
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 利用AI阅读和分析文本:扣子COZE记录用户反
  • 在网页片段内直观标注——以B站评论采集为
  • 利用AI阅读和分析文本:使用COZE建设游记文
  • 使用AI工具Kimi生成python代码为文本分析结
  • 苹果mac电脑安装集搜客网络爬虫软件失败的

热门用户

GMT+8, 2024-10-7 01:24