连续动作:滚屏采集瀑布流网页—以头条新闻为例

2017-1-4 11:44| 发布者: ym| 查看: 24167| 评论: 6

摘要: 常见的网页大多数在页面下方会有翻页的按钮,比如“下一页”、“加载更多”,这类网页设置翻页就可以搞定,但是瀑布流网页没有这些按钮,而是随着鼠标滚动会不停的加载更多内容,这种很长很长的没有翻页按钮的网页就 ...

配套软件版本:V9及更低 集搜客网络爬虫软件

新版本对应教程:V10及更高 数据管家——增强版网络爬虫 的对应教程是《自动滚屏采集瀑布流网页——以今日头条新闻为例


注:集搜客GooSeeker爬虫从V9.0.2版本开始,爬虫术语“主题”统一改为“任务”,在爬虫浏览器里先命名任务再创建规则,然后登录集搜客官网会员中心的“任务管理”里,就可以查看任务的采集执行情况、管理线索网址以及做调度设置了。

常见的网页大多数在页面下方会有翻页的按钮,比如“下一页”、“加载更多”,这类网页设置翻页就可以搞定,但是瀑布流网页没有这些按钮,而是随着鼠标滚动会不停的加载更多内容,这种很长很长的没有翻页按钮的网页就是瀑布流网页。

爬虫只能采集网页上已经加载显示的内容,而瀑布流网页的内容不是一次性加载的,每滚屏一次才会显示更多的内容,所以采集瀑布流网页需要用到滚屏动作。


一、操作步骤

下面用今日头条网作为案例,给大家演示一遍用滚屏动作采集瀑布流网页,操作步骤如下:

Tips:本文讲解的滚屏动作和滚轮动作是有区别的,滚屏相当于滚动网页最右边的滚动条;而滚轮是仿真鼠标轮子的滚动,所以滚轮动作可以实现一些特殊需求,如下:

  • 网页内部局部区域的滚动条
  • 翻页无法激发加载的网页只能用滚轮仿真


二、案例规则+操作步骤

  • 采集规则:今日头条_推荐
  • 样本网址:http://www.toutiao.com/
  • 采集内容:每一条新闻的新闻标题、评论数、发布时间、链接


第一步:打开网页

1.1打开集搜客网络爬虫,输入网址并Enter,加载出网页后再点击“定义规则”按钮,看到一个浮窗显示出来,称为工作台,在上面定义规则;

注意:这里的截图和文字说明都是集搜客网络爬虫版本 ,如果您安装的是火狐插件版,那么就没有“定义规则”按钮,而是应该运行MS谋数台

1.2,在工作台中输入主题名,再点击“查重”,提示“该名可以使用”或“该名已被占用,可编辑:是”,就可以使用这个主题名,否则请重命名。

Tips:为了能准确定位网页信息,点击定义规则会把整个网页定格住,不能跳转网页链接,再次点击定义规则,才会恢复回普通的网页模式。


第二步:标注信息

2.1标注是针对网页的文本信息来操作的,双击目标信息就会选中它,在弹出小窗中输入标签名,打勾确认或Enter。首次标注还要输入整理箱名称,即存数据的表名。这也是标签与网页信息建立映射关系的过程。

2.2 由于链接是属性节点,不是文本节点,无法直接在页面上标注,所以要手动做内容映射,点击网页的标题,定位到一个网页标签节点A,展开它找到@href节点后,右击@href然后选择内容映射->链接。

2.3对“标题”勾选“关键内容”,通常是对必然显示的信息勾选关键内容,用于给爬虫判断是否执行采集,防止数据抓取不完全。


第三步:样例复制

3.1 设置样例复制,是为了把页面上结构相同的信息全部抓取下来,首先选中容器节点“新闻列表”,勾选“启用”,找到新闻列表的第一条和第二条新闻的节点分别映射给样例1和样例2。详细操作可以看文章《采集列表数据》来掌握。


第四步:设置连续动作—滚屏

4.1在连续动作工作台新建一个滚屏动作,因为滚屏后的网页结构没有变化,仍然可以用当前规则采集,所以这里的目标主题名就填写当前规则本身的主题名。

4.2滚屏动作的参数可以根据自己的需要调试。滚屏动作的高级设置一般保持默认就行,滚屏参数说明如下:

  • 每次滚屏次数:每次执行滚屏动作,浏览器往下翻多少屏;
  • 总共滚屏数:执行滚屏操作的次数,达到总共滚屏数就会停止滚屏,-1表示无限制;


注意:设置了滚屏动作, DS打数机就要做如下两个设置:

(1)必须关闭DS打数机的自动滚屏功能

因为DS打数机的自动滚屏会让爬虫一口气滚到底,但真正的瀑布流是滚不到底的,而滚屏动作是要滚一下抓一下,所以如果不关闭自动滚屏,就不会执行滚屏动作。设置方法:点击DS打数机的配置菜单->滚屏参数,然后把滚屏次数设置成 0 就可以关闭自动滚屏。


(2)根据需要设置重复内容强制中断

DS打数机不断地企图往下滚屏,必须告诉它什么时候停止,在MS谋数台的滚屏动作里,可以通过总共滚屏数来限定滚多少屏就停止。

如果总共滚屏数设置成-1,就会一直滚屏停不下来,这时就必须在DS打数机上打开重复内容,这样当爬虫发现抓到的都是重复内容,就会停止滚屏动作。设置方法:点击DS打数机的高级菜单->终点标志->勾上重复内容。


第五步:存规则,抓数据

5.1 点击测试,看到输出的结果都正常,说明规则没有问题,可以使用了,然后点击“存规则”来保存规则,然后就可以点击“爬数据”来采集数据了。

5.2 你会发现抓到了很多个xml文件,这是因为瀑布流网页是一边滚屏一边抓取的,所以,只要保留最大的那个xml文件就可以了。

三、新功能

没有尽头的瀑布流网页会随着滚屏内容无限增长下去,导致爬虫的内存不够而崩溃,新版本集搜客网络爬虫(V8.3.1)增加了清除老内容功能,具体参看教程《爬wish等瀑布流网站时使用清除老数据功能


上篇文章:《连续动作:自动选择下拉菜单采集数据》         下篇文章:《把信息与连续动作步骤对应起来》


若有疑问可以集搜客爬虫软件
1

鲜花

握手

雷人

路过

鸡蛋

刚表态过的朋友 (1 人)

相关阅读

发表评论

最新评论

评论 Fuller 2020-4-6 15:46
njsgdsza: 采集的不全,想手动复制了,能不能让它滚到最后不关闭页面显示完成(要是能有办法让网页一次性加载完毕就好了) ...
瀑布流是没有尽头的,即使手工采集也一样
评论 njsgdsza 2020-4-6 15:27
采集的不全,想手动复制了,能不能让它滚到最后不关闭页面显示完成(要是能有办法让网页一次性加载完毕就好了)
评论 Fuller 2019-8-7 09:10
chenzhoutong1: 具体是怎么操作的呢?求教!
应该看这个教程:https://www.gooseeker.com/doc/article-343-1.html
评论 chenzhoutong1 2019-8-6 20:16
Fuller: 需要先在整理箱中创建“链接”这个抓取内容。或者右击菜单有一项“新建抓取内容”
具体是怎么操作的呢?求教!
评论 Fuller 2019-8-6 11:55
chenzhoutong1: 内容映射右击没有“链接”是怎么回事啊?
需要先在整理箱中创建“链接”这个抓取内容。或者右击菜单有一项“新建抓取内容”
评论 chenzhoutong1 2019-8-6 11:10
内容映射右击没有“链接”是怎么回事啊?

查看全部评论(6)

GMT+8, 2024-10-11 14:41