失败规则的名字是:UX领英详情爬取。

之前用相对线索(规则名称:领英-UX职位名称),试了好多次才蒙对了一次,做到了能翻页,爬到了一次。但是新建了一个规则(UX领英详情爬取),准备用记号线索,但是这次怎么都没办法让他翻页,试了几乎所有的“下页”的图形或者text作为翻页记号,都不行。有没有大神来诊断一下的?很感谢

想要爬去的网页是https://www.linkedin.com/jobs/search/?keywords=%E7%94%A8%E6%88%B7%E4%BD%93%E9%AA%8C这个

这里先谢过了
举报 使用道具
| 回复

共 12 个关于本帖的回复 最后回复于 2019-3-4 21:35

沙发
wangyong 版主 发表于 2019-3-4 14:15:08 | 只看该作者
这个规则先要改一下抓取内容映射的部分,加载UX领英详情爬取全部定位不上,重新映射一下,然后把抓取内容都做上定位标志映射
举报 使用道具
板凳
UXeason 新手上路 发表于 2019-3-4 14:26:15 | 只看该作者
wangyong 发表于 2019-3-4 14:15
这个规则先要改一下抓取内容映射的部分,加载UX领英详情爬取全部定位不上,重新映射一下,然后把抓取内容都 ...

您好,感谢您的回复,我读了您发的帖子了。但是我的这个问题跟映射有关系吗?因为我的规则是跟着咱们官方的教程来设置重复和翻页的,官方教程教的是用绝对定位来实现重复的而不是您上文提到的用Id。我现在的问题是,抓取完第一页后就不会继续往下抓取了。您能再帮我看看嘛?感谢了。

举报 使用道具
地板
UXeason 新手上路 发表于 2019-3-4 16:40:34 | 只看该作者
@Fuller
举报 使用道具
5#
Fuller 管理员 发表于 2019-3-4 17:00:07 | 只看该作者

你的版面是旧版还是新版?我加载你的规则都是失败的

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
6#
Fuller 管理员 发表于 2019-3-4 17:03:55 | 只看该作者

旧版是这样的,也是加载失败。这个网页上有很多很好的class,可以作为定位标志,在内容映射基础上用上定位标志映射,就可提高规则的适应性。具体参看《定位标志映射精确采集范围

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
7#
wangyong 版主 发表于 2019-3-4 17:06:58 | 只看该作者

这个规则的问题可能是翻页区域是异步加载来显示的,需要用连续动作的滚轮操作来先把翻页区域显示出来后再进行翻页,现在我还没有测试成功先滑动滚轮再来翻页
举报 使用道具
8#
Fuller 管理员 发表于 2019-3-4 17:15:47 | 只看该作者


根据上图这个DOM来看,如果“定位”按钮选择偏好class,很可能会漏采数据,因为他们会选这些class,而且竟然有两种,所以,会漏掉一种。也不能选偏好id,因为每个id都有一个不同的值,采集不了列表。所以,不得不用绝对定位,不过不影响手工做的定位标志映射。而绝对定位的适应性很差,那么不得不用一个技巧,如下图:

给每个内容做定位标志映射,并且把整理箱变成嵌套的,里面套着一个子容器,样例复制在内部的容器节点“划范围”上做,而最外层的用定位标志映射,在网页上划定范围。因为范围都划定了,就可以放心使用绝对定位,规则的适应性就不受影响,同时避免了内部的class不适合采集多样例的问题

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
9#
UXeason 新手上路 发表于 2019-3-4 18:46:09 | 只看该作者
Fuller 发表于 2019-3-4 17:00
你的版面是旧版还是新版?我加载你的规则都是失败的

用的是旧版的
举报 使用道具
10#
UXeason 新手上路 发表于 2019-3-4 18:48:41 | 只看该作者
wangyong 发表于 2019-3-4 17:06
这个规则的问题可能是翻页区域是异步加载来显示的,需要用连续动作的滚轮操作来先把翻页区域显示出来后再 ...

对,其实我自己用这个规则,单页面是可以采集完毕的,只是没法实现翻页采集。我想问的一直都是怎么翻页采集
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 360或火绒等杀毒软件导致GooSeeker爬虫软件
  • 话题分析(NMF模型和LDA模型)软件的安装和
  • 运行Apple无法验证的程序的方法
  • 文本聚类分析软件的安装和使用方法
  • 利用AI阅读和分析文本:扣子COZE记录用户反

热门用户

GMT+8, 2025-5-5 23:31