我用集搜客数据管家软件爬网站,我观察到翻到第二页成功了,但是在第二页这里就不动了。这种情况怎么解决?
举报 使用道具
| 回复

共 5 个关于本帖的回复 最后回复于 2021-1-19 17:24

Fuller 管理员 发表于 2021-1-19 09:03:01 | 显示全部楼层
显然是翻页规则有问题,到第二页就不适应了,点击“下一页”没有点对。那就把规则加载到工作台上,翻页到第二页,执行分析页面,看看有什么错误。
举报 使用道具
发誓学好内容分析 金牌会员 发表于 2021-1-19 09:03:21 | 显示全部楼层
在数据管家软件上具体怎么操作
举报 使用道具
Fuller 管理员 发表于 2021-1-19 17:08:59 | 显示全部楼层
发誓学好内容分析 发表于 2021-1-19 09:03
在数据管家软件上具体怎么操作

更平常一样,在数据管家上加载规则,参看教程《爬虫任务的加载、修改和另存》。

执行分析任务,然后点击“下一页”,你会发现并不会翻页,而是在DOM窗口中定位到了html节点。这是应该正处于“内容定位”模式,要顶级右上角的那个内容定位按钮,变成灰色,才能点击下一页
定位20210119170533.png

举报 使用道具
Fuller 管理员 发表于 2021-1-19 17:15:48 | 显示全部楼层
到了下一页20210119171019.png

去掉“内容定位”模式,就能翻页了,翻过去以后,一般会弹窗,这个意思是说:网页内容变了,DOM结构已经不是最新的了,工作台上做的内容映射也失效了。那么就应该这样恢复:
1,点击右下角的橙色菜单“刷新DOM”:DOM就可以变成最新网页的了
2,点击右上角的橙色菜单“分析页面”:就会用工作台上的规则重新套用到当前页面

如下图,如果套用成功了,不会有错误提示,而且能看到采集数据工作台上的每个采集内容都对应到了网页节点
分析成功20210119171125.png
举报 使用道具
Fuller 管理员 发表于 2021-1-19 17:24:53 | 显示全部楼层
转到爬虫路线工作台,你说你的规则第二页就失效了,而且还没有说采集失败,那么说明到第二页以后,数据采集规则有效,而翻页规则失效了,那么应该看到翻页区和下一页标志都对应不到节点了。

下图是能对应到节点的情况,都有节点编号,点击编号还能看到自动定位到网页上的节点,你的规则应该在这里显示“未映射”。

翻页20210119171224.png

如果是这样,说明你在第一页上做的翻页规则不适应第二页,要找找原因。很可能自动采用了网页上的@id和@class属性,而到第二页就没有了。可以选择不同的定位偏好试试,注意看“查看网页元素”那里显示的元素详情,显示的class和id属性哪个更加合适,就可以在上面的下拉菜单中选择不同偏好。点击“测试”按钮,可以看到生成的翻页xpath包含的定位属性好不好,如下图


翻页规则20210119172152.png

另外,下一页标志可以是文字“下一页”,也可以是网页上的class和id或者其他属性,根据需要选择合适的下一页标志
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-29 04:07