请问怎么实现选择性翻页?
举报 使用道具
| 回复

共 4 个关于本帖的回复 最后回复于 2016-12-21 17:51

沙发
xandy 论坛元老 发表于 2016-12-21 17:11:48 | 只看该作者
本帖最后由 xandy 于 2016-12-21 17:15 编辑

方法一:
每页有独立网址的话,就把规则里的翻页线索删掉,然后构造每页网址,导入到规则里,一页页地抓。
这样,你只要将想要抓取的页面的网址以线索的形式添加就行了。
参看帖子:《请问谁知道,怎么破除网站翻页的页码限制
举报 使用道具
板凳
xandy 论坛元老 发表于 2016-12-21 17:17:57 | 只看该作者
方法二:
如果你想要有规律的翻页,比如说隔1翻一次(采第1、2、3、4...页),或者隔3翻一次(采第1、4、7、10、13...)的话,可以用相对线索来解决。
参看教程《解决只有数字页码的翻页:相对线索
举报 使用道具
地板
xandy 论坛元老 发表于 2016-12-21 17:25:38 | 只看该作者
方法三:
如果你只想采集前n页,不用全部采集完,可以通过会员中心的控制翻页数来实现。
参看帖子:《怎样控制翻页数量?


举报 使用道具
5#
xandy 论坛元老 发表于 2016-12-21 17:51:58 | 只看该作者
本帖最后由 xandy 于 2016-12-21 18:01 编辑

方法四:
有一些网页是可以输入页码数的,输入页码数后网址发生变化(说明每页有独立的网址),那么可以参看方法一。如果网址没有发生变化,那么就要用连续动作了,通过连续动作定义人的输入、点击等行为,采集动作后显示的页面上的数据。
参看帖子:《可以设置从指定页面开始抓取吗?
参看教程:《连续动作让爬虫持续采集

举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-30 08:02