本帖最后由 saygoodbye163 于 2016-11-22 00:01 编辑

比如说,我想要采集1,4,7,10页,也就是一次翻3页,怎么做?
举报 使用道具
| 回复

共 4 个关于本帖的回复 最后回复于 2016-11-25 16:38

沙发
Fuller 管理员 发表于 2016-11-22 08:54:05 | 只看该作者
如果网页上的翻页区有翻页页码编号,那么就用相对线索类型,用第一页作为样本页面做规则,那么用页码1作为当前页,页码4作为下一页,分别做相对线索映射
举报 使用道具
板凳
Fuller 管理员 发表于 2016-11-22 09:05:12 | 只看该作者
刚才我测试了一下,实现不了。原因是:

如果当前翻页区有页码 1,2,3,4,5,6,7,8,9,10 如果按照这个要求来做,那么点击顺序是1,4,7,10,到10以后其实后面还有,但是他不会进入“下一页”,就断了。所以,这种点击页码的方法与“下一页”有根本性区别。

我建议还是按照顺序翻页,抓完以后再筛选掉不要的。

还有,我刚才说的相对线索映射好以后,先“存规则”,然后手工修改翻页规则,修改后点击“保存修改”而不是“存规则”,才能把手工修改的存下来。
举报 使用道具
地板
Fuller 管理员 发表于 2016-11-22 09:21:47 | 只看该作者


上图,做完相对线索映射以后,生成的翻页规则需要手工修改,
  1. following-sibling::li[position()=1 and @class='pagination-page ng-scope']/a
复制代码
position()=1以及following-sibling表示紧挨着下一个DOM节点,只要改成postion()=3,就是跨到第四页,上面截图是跨到第5页


举报 使用道具
5#
saygoodbye163 新手上路 发表于 2016-11-25 16:38:51 | 只看该作者
Fuller 发表于 2016-11-22 09:05
刚才我测试了一下,实现不了。原因是:

如果当前翻页区有页码 1,2,3,4,5,6,7,8,9,10 如果按照这个要求来做 ...

额,感谢了,我的试了下我的那个网站是可以的,,因为我的那个网站下面页码是自动翻的,也就是说翻到10页以后就自动显示到5~15页了,当前页码永远在中间,所以谢谢啦
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-28 19:15