快捷导航

翻页采集列表

2016-9-29 16:32| 发布者: ym| 查看: 12879| 评论: 20

摘要: 一、操作导航图采集具有一页以上的列表网页就要设置翻页,这样DS打数机才能自动翻页采数据。选取一个具有翻页的样本网址来做规则,就可以用这个规则来批量采集同类网址(包括一页或多页)。下面用大众点评网作为案例 ...

一、操作步骤

采集具有一页以上的列表网页就要设置翻页,这样DS打数机才能自动翻页采数据。选取一个具有翻页的样本网址来做规则,就可以用这个规则来批量采集同类网址(一页或多页都适用)。下面用大众点评网作为案例,操作步骤下:


二、案例规则+操作步骤

本案例是在上一篇文章《采集列表数据》的基础上,直接增加翻页设置,所以,前三步操作就不重复讲了,下面就直接讲第四步操作。

第四步:设置翻页

4.1,新建记号线索:选择“爬虫路线”,点击“新建”,选择“记号线索”,勾上“连贯抓取”,“目标主题名”会自动填上当前主题名,指循环调用这个规则。


4.2,设置记号线索是要做两次映射的,第一次是映射翻页区块的范围,第二次是映射翻页记号。

4.2.1,第一次是选定翻页区域的网页节点进行映射:点击翻页标志,定位到包含它的翻页区域所在的网页节点,这里指包含“下一页”、“加载更多”等翻页按钮的翻页区,然后右击节点选择“线索映射”->“定位”->“线索*”,爬虫路线中的“定位编号”就会映射上该节点的编号。


4.2.2,第二次是把翻页记号值所在的网页节点做映射:双击翻页区域节点逐层展开,找到翻页记号所在的节点,这里指翻页按钮的文本节点或属性值节点,右击节点选择“线索映射”->“记号映射”,爬虫路线中的“记号值”和“记号定位编号”就会分别映射上该节点的值和编号。


4.3,定位选项的默认项是偏好id,由于不同页码的翻页区id值可能会变化,而class值通常不变,所以,最好改为偏好class。


第五步:存规则,抓数据

5.1,点击存规则、抓数据,在DS打数机里看翻页是否成功,翻页采集成功的话,在本地DataScraperWorks文件夹中会生成多个xml文件,详情见文章《查看数据结果》


上篇文章:《采集列表数据》                                                                             下篇文章:《层级网页采集》



若有疑问可以集搜客爬虫软件
12

鲜花
2

握手

雷人

路过
1

鸡蛋

刚表态过的朋友 (15 人)

相关阅读

发表评论

最新评论

评论 umsung 2017-11-2 09:12
wekrior: 怎么停掉抓取。挺急的,在线等……
直接关掉爬虫窗口就行了
评论 wekrior 2017-11-1 22:36
怎么停掉抓取。挺急的,在线等……
评论 Fuller 2017-7-24 12:56
http://www.gooseeker.com/doc/article-101-1.html 如何抓取网页片段完整信息——以采集京东商品标题为例
Lucky嗨嗨: 如果我非要用前面的方法,在爬取知网摘要的时候,摘要显示是不完整的,所以爬取的结果也是不完整的,怎样把完整的摘要都爬下来呢?非常感谢 ...
评论 Lucky嗨嗨 2017-7-24 12:49
Fuller: 百度关键词新闻搜索,也有数据DIY,只用输入关键词,启动采集,就可以下数据了。 <a href="http://www.gooseeker.com/res/datadiy.html" target="_blank">http://www.gooseeker.com/res/datadiy.html</a> ...
如果我非要用前面的方法,在爬取知网摘要的时候,摘要显示是不完整的,所以爬取的结果也是不完整的,怎样把完整的摘要都爬下来呢?非常感谢
评论 Fuller 2017-7-24 11:50
Lucky嗨嗨: 谢谢啦!我不会编程也可以用数据DIY吗?那如果我想在百度搜索关键词再爬虫有什么好的推荐吗?第四步我看了,问题出现在4.2.2,不知道为什么“下一页”不能映射! ...
百度关键词新闻搜索,也有数据DIY,只用输入关键词,启动采集,就可以下数据了。
http://www.gooseeker.com/res/datadiy.html
评论 Lucky嗨嗨 2017-7-24 11:39
Fuller: 翻页有问题,仔细看看第四步,翻页设置。采知网用Gooseeker 数据DIY更简单方便。
谢谢啦!我不会编程也可以用数据DIY吗?那如果我想在百度搜索关键词再爬虫有什么好的推荐吗?第四步我看了,问题出现在4.2.2,不知道为什么“下一页”不能映射!
评论 Lucky嗨嗨 2017-7-24 11:38
设置翻页的时候到4.2.2的时候“下一页”的没有映射到节点上!所以后面爬虫的时候要手动翻页,这是为什么啊?
评论 Fuller 2017-7-24 11:14
Lucky嗨嗨: 为什么我设置完翻页采集,要手动翻页才能采集下一页?
翻页有问题,仔细看看第四步,翻页设置。采知网用Gooseeker 数据DIY更简单方便。
评论 Lucky嗨嗨 2017-7-24 11:02
为什么我设置完翻页采集,要手动翻页才能采集下一页?
评论 Fuller 2017-7-15 11:55
翻页设置有问题,打数机有什么报错?没有线索了,是说采集完了,需要添加新的要采集网址或者激活原来的网址
大锅方便面: 请教一下,设置页数后提示“没有线索了,可添加新线索或激活已有线索”是什么意思? 设置了翻页采集后还是只能采到当前页面的内容。 谢谢 ...
评论 大锅方便面 2017-7-15 11:28
请教一下,设置页数后提示“没有线索了,可添加新线索或激活已有线索”是什么意思?
设置了翻页采集后还是只能采到当前页面的内容。
谢谢
评论 gz51837844 2017-7-2 23:40
云骨: 出现记号不允许空是怎么解决啊
你另发一个帖子,贴出来网址和规则名称,技术帮你分析下
评论 云骨 2017-7-2 15:02
出现记号不允许空是怎么解决啊
评论 Fuller 2017-4-17 11:51
jiaguozhong: 怎么设置翻多少页啊
看这篇帖子http://www.gooseeker.com/doc/thread-6473-1-1.html
评论 jiaguozhong 2017-4-17 10:36
怎么设置翻多少页啊
评论 xandy 2017-3-15 18:04
dangdanghaha: 如何找到已保存的规则重新编辑
参看教程:http://www.gooseeker.com/doc/article-124-1.html
评论 dangdanghaha 2017-3-15 17:39
如何找到已保存的规则重新编辑
评论 CoraCrawler 2017-3-6 15:33
xandy: 定义规则要先在浏览器进行登录,你用GS爬虫浏览器的MS定义规则话就先在GS浏览器上登录微博,用火狐插件版爬虫MS定义规则的话,就在火狐浏览器先进行登录。 ...
谢谢!!!
评论 xandy 2017-3-3 15:58
CoraCrawler: 微博如何翻页呢,不登录不显示翻页
定义规则要先在浏览器进行登录,你用GS爬虫浏览器的MS定义规则话就先在GS浏览器上登录微博,用火狐插件版爬虫MS定义规则的话,就在火狐浏览器先进行登录。
评论 CoraCrawler 2017-3-3 15:54
微博如何翻页呢,不登录不显示翻页

查看全部评论(20)

集搜客GooSeeker网络爬虫 ( 粤ICP备11065265号-2 )

GMT+8, 2017-11-20 11:51