根据第二张图设置的翻页规则,点击指定位置翻页,我在采集数据的时候设置翻页10次,但每次都是2页的数据

WX[HW%ONN@1QQLAJ6P][W49.jpg (26.67 KB, 下载次数: 194)

WX[HW%ONN@1QQLAJ6P][W49.jpg
举报 使用道具
| 回复

共 7 个关于本帖的回复 最后回复于 2024-1-18 16:07

沙发
青海伏明霞 新手上路 发表于 2024-1-17 18:10:43 | 只看该作者
规则编号:规则_1
举报 使用道具
板凳
gz51837844 管理员 发表于 2024-1-17 18:31:14 | 只看该作者
你这个任务的任务名是什么?
管理员在后台查询“青海伏明霞”这个用户名下面没有任何已保存的任务。
举报 使用道具
地板
Fuller 管理员 发表于 2024-1-17 22:52:19 | 只看该作者
把这里改成 偏好ID ,试一试

举报 使用道具
5#
青海伏明霞 新手上路 发表于 2024-1-18 09:37:25 | 只看该作者
gz51837844 发表于 2024-1-17 18:31
你这个任务的任务名是什么?
管理员在后台查询“青海伏明霞”这个用户名下面没有任何已保存的任务。
...

CanadaNews

举报 使用道具
6#
gz51837844 管理员 发表于 2024-1-18 10:24:28 | 只看该作者

图中初始的@class值是sclt-loadmore1。。。。, 翻了一页后会变成sclt-loadmore2。。。
这样翻页的xpath就找不到了,翻页就结束了。
做翻页映射时: 可以试试用图中的BUTTON的父节点的@class值映射翻页记号,避开翻页后@class值会改变的节点
举报 使用道具
7#
青海伏明霞 新手上路 发表于 2024-1-18 11:00:26 | 只看该作者
Fuller 发表于 2024-1-17 22:52
把这里改成 偏好ID ,试一试

我设置了偏好id可以加载下面的,但是这个网页是是继续加载这种,一触发加载就重新爬这个页面所有数据,导致非常多的重复数据
举报 使用道具
8#
Fuller 管理员 发表于 2024-1-18 16:07:58 | 只看该作者
青海伏明霞 发表于 2024-1-18 11:00
我设置了偏好id可以加载下面的,但是这个网页是是继续加载这种,一触发加载就重新爬这个页面所有数据,导 ...

持续加载的网页没有办法避免重复,因为以前加载的网页内容还在网页上,会一起采集下来。可以爬到最后一页以后,只把最后一个xml导入数据库
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-30 03:51