4 12688

怎样控制翻页数量?

ym 于 2015-11-30 16:06 发表 [复制链接]
本帖最后由 ym 于 2017-4-13 16:21 编辑

常见问题 > 制作规则—常见问题导航 > 翻页> 怎样控制翻页数量?

问:我现在能获取翻页的信息了 怎样可以设置说我只要前五页的信息啊,如果不设置 抓取的时候就会7页都抓取

答:有三种方法
1、用爬虫群采集,在规则调度中设置同一线索内翻页次数,就能控制翻页数,n为采集的页码数量,想要采集几页就输入几。注意:调度参数只对爬虫群采集生效,对于点击单搜/集搜打开的爬虫窗口不生效。参考爬虫群使用教程
QQ截图20160520094121.png
2、构造每页网址,如果每一页是有独立网址的话,就可以构造每一页的网址,网址后面的page=xx就是页码,把页面网址拷贝到excel,拖动单元格就会把每页网址构造出来。因为是构造的网址,必须要检查网址是否有效(把它拷贝到浏览器中,看看是否正常加载)。然后把这些网址直接导入规则里,并且把规则里爬虫路线的翻页设置删掉,这样DS打数机就不会翻页,而是直接采集特定页码的数据。
QQ图片20151130162157.png
3、自行编写爬虫调度程序crontab,与爬虫群效果一致,crontab中的depth参数就是控制翻页次数的,crontab比较难掌握,建议直接用爬虫群调度设置来做。参考crontab教程
举报 使用道具
| 回复

共 4 个关于本帖的回复 最后回复于 2016-12-20 16:39

wangyu15 初级会员 发表于 2016-5-19 17:31:32 | 显示全部楼层
请问怎么构造“page=xx"类型的网址,另外,这些网址导入规则怎么导入?是在打数机里以线索的方式批量导入吗?
举报 使用道具
shenzhenwan10 金牌会员 发表于 2016-5-19 17:34:33 | 显示全部楼层
你在excel里输入第一个网址, 鼠标往下来就可以生成多个网址。 不过要检查是否正确
可以在会员中心直接批量导入线索
举报 使用道具
shenzhenwan10 金牌会员 发表于 2016-5-19 17:35:27 | 显示全部楼层
也可以复制下来,在DS打数机里导入
举报 使用道具
woshisunzhongs 初级会员 发表于 2016-12-20 16:39:39 | 显示全部楼层
使用爬虫群定义同一线索内的翻页次数,非常实用!!!
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-29 20:53