连续动作:采集悬浮窗信息—以微博为例

2017-1-13 14:14| 发布者: ym| 查看: 20277| 评论: 4

摘要: 一、操作步骤 如何采集鼠标悬浮后的浮窗里显示的信息?这个需要用到连续动作中的悬浮功能。下面以微博搜索为例,演示如何采集浮窗里显示的博主信息。 二、案例规则+操作步骤 第一级采集规则:教程悬浮1第二级采集规 ...

配套软件版本:V9及更低 集搜客网络爬虫软件

新版本对应教程:V10及更高 数据管家——增强版网络爬虫 的对应教程是《鼠标悬停信息采集——以淘宝店铺动态评分为例


注:集搜客GooSeeker爬虫从V9.0.2版本开始,爬虫术语“主题”统一改为“任务”,在爬虫浏览器里先命名任务再创建规则,然后登录集搜客官网会员中心的“任务管理”里,就可以查看任务的采集执行情况、管理线索网址以及做调度设置了。

一、操作步骤

如何采集鼠标悬浮后的浮窗里显示的信息?这个需要用到连续动作中的悬浮功能。下面以微博搜索为例,演示如何采集浮窗里显示的博主信息。


二、案例规则+操作步骤

  • 第一级采集规则:教程悬浮1
  • 第二级采集规则:教程悬浮2
  • 样本网址:http://s.weibo.com/weibo/%25E7%25BD%2591%25E7%25BB%259C%25E7%2588%25AC%25E8%2599%25AB&Refer=STopic_box
  • 采集内容:博主名称、粉丝数、微博数、简介


第一步:定义第一级规则

1.1,打开集搜客网络爬虫,输入想要采集的样本网址并Enter,加载出完整的网页后,再点击右上角的“定义规则”,输入规则主题名,点击“查重”,提示“该名可以使用”,就可以标注网页信息了。

注意:这里的截图和文字说明都是集搜客网络爬虫版本 ,如果您安装的是火狐插件版,那么就没有“定义规则”按钮,而是应该运行MS谋数台

1.2,第一级规则主要是为了设置连续动作,整理箱可以随意抓点信息。这里标注了博主名称,并对整理箱顶点做定位标志映射来精确采集范围,最后还要设置关键内容。


第二步:设置翻页与连续动作

2.1翻页抓取

2.1.1,要在第一级规则设置翻页,因为它抓的是列表页面,包含了翻页区域的范围,而第二级规则抓的是浮窗里的信息,不包括翻页区域。

2.1.2,在爬虫路线里新建“记号线索”,找到翻页区块和记号值“下一页”所在的节点,分别做线索映射。详细操作参考教程《设置翻页采集》


2.2设置连续动作

2.2.1,新建动作,选择“悬浮”动作类型。

2.2.2,填写二级规则主题名,点击“谁在用”查看是否被占用。这里和层级抓取相同,填写的是预定名称,稍后制作二级规则。


2.2.3,获取定位表达式。点击微博头像定位,然后用“显示xpath”功能,选择其中一种模式,就可以得到xpath,这里是选择偏好@class得到的xpath。

2.2.4,检查xpath有效性。得到xpath后还要点击“搜索”检查一下是否满足需要,例如:发现的DOM节点总数为22,与网页上的微博头像数量是一致的,说明这个xpath是有效的,点击“后一个”可查看xpath定位到的每个头像节点。


2.2.5,把xpath填到定位表达式。将检验后正确的xpath粘贴到定位表达式处

2.2.6,填上动作名称,方便修改动作。


注意:高级设置可设置额外延时、起点、跨度等,大家可以先不设置,根据需要再设置,参数意义请看《连续动作的界面介绍》


2.3存规则

翻页和连续动作都设置完毕后,点击谋数台右上方“存规则”,保存好第一层规则,下面继续制作第二层规则。


第三步:定义第二级规则

3.1,新建规则。保存好第一层规则后,点击MS谋数台左上方的“规则”菜单->”新建”,清空当前的工作台之后,就可以建立第二级规则,操作参考前面的1.1步骤。

3.2 ,由于是同一个样本页面就不用切换网页了,但是要把浮窗显示出来并冻结住,才能做映射。冻结网页的操作如下:鼠标指在博主头像上,就会弹出浮窗,此时,按住快捷键Alt+E让“规则”菜单栏弹出,再使用向下箭头↓选择冻结页面,最后选择刷新页面结构,这样就可以对浮窗做标注映射了。

3.3,填写上级预定的规则主题名并点击“查重”,点击查重后出现以下提示,或“该名等待识别。可编辑:是”则代表填写正确。


3.4,映射抓取内容。把浮窗上想要采集的信息映射到整理箱,并对包含整个浮窗的节点做定位标志映射到整理箱顶节点,最后设置关键内容。

3.5,存规则。映射完想要的信息后,点击“存规则”,保存第二级规则。


第四步:爬数据

4.1,连续动作是连贯执行两级规则的,所以我们只要运行第一级规则。打开DS打数机,搜索出第一级规则,点击单搜/集搜运行,就会看到第一个博主的浮窗信息弹出并采集,然后再弹出第二个博主的浮窗信息并采集,以此类推,直到把当前页面上每一个博主的浮窗信息都采集完,就会自动跳到第二页,以同样的方式继续采集浮窗信息。


4.2,打开第二级规则的数据文件夹,把里面的xml转为excel,就能看到如上图的数据。


上篇文章:《把信息与连续动作步骤对应起来》                下篇文章:《连续动作:设置自动返回上级页面》


若有疑问可以集搜客爬虫软件
4

鲜花
1

握手

雷人
1

路过

鸡蛋

刚表态过的朋友 (6 人)

相关阅读

发表评论

最新评论

评论 umsung 2017-11-28 17:01
Brad764: “3.4,映射抓取内容。把浮窗上想要采集的信息映射到整理箱,并对包含整个浮窗的节点做定位标志映射到整理箱顶节点,最后设置关键内容。”我要做定位,但是定位 ...
右键-定位映射标志-你的整理箱名称
评论 Brad764 2017-11-28 16:08
“3.4,映射抓取内容。把浮窗上想要采集的信息映射到整理箱,并对包含整个浮窗的节点做定位标志映射到整理箱顶节点,最后设置关键内容。”我要做定位,但是定位那个选项后面并没有出现整理箱的名字让我选择,请问是什么问题?
评论 Fuller 2017-5-24 19:07
Seven66: 按照这个做的,为什么会出现匹配失败情况,后续分析也没有弹出窗口
你在“使用交流”板块发个帖子吧,把主题名和问题描述帖出来,那里有专人负责诊断
评论 Seven66 2017-5-24 18:05
按照这个做的,为什么会出现匹配失败情况,后续分析也没有弹出窗口

查看全部评论(4)

GMT+8, 2024-12-3 10:51