如何找到合适的连续动作组合

2017-1-6 10:01| 发布者: ym| 查看: 15753| 评论: 2

摘要: 设置连续动作就是为了模拟人在浏览网页时的各种操作,从而加载出想要的网页信息,最后再进行采集,所以,总体上可以分为两大操做步骤,第一步是模拟人浏览网页的操作,通过在规则里设置连续动作来实现;第二步是采集 ...

注:集搜客GooSeeker爬虫从V9.0.2版本开始,爬虫术语“主题”统一改为“任务”,在爬虫浏览器里先命名任务再创建规则,然后登录集搜客官网会员中心的“任务管理”里,就可以查看任务的采集执行情况、管理线索网址以及做调度设置了。

设置连续动作就是为了模拟人在浏览网页时的各种操作,从而加载出想要的网页信息,最后再进行采集,所以,总体上可以分为两大操作步骤,第一步是模拟人浏览网页的操作,通过在规则里设置连续动作来实现;第二步是采集数据,像采集静态页面那样,直接对想要的网页信息做采集规则。

关键是第一步,需要弄清楚操作范围、设置哪些动作类型、动作的顺序以及要做多少个规则。大家可以先在浏览器上进行信息浏览,把操作范围以及动作类型和顺序整理出来,再做规则设置连续动作。下面会用四个典型场景为例子,演示如何找到合适的连续动作组合。


一、中国知网——输入关键词检索

  • 场景:用中国知网的文献为例,希望采集关键词包含“金融”的文献。
  • 页面链接:http://epub.cnki.net/kns/brief/result.aspx?dbprefix=scdb&action=scdbsearch&db_opt=SCDB
  • 在浏览器需要三步来完成,即:选择关键词 -> 在输入框输入“金融” -> 检索。


定义采集规则的相应步骤如上图所示,主题A用来设置连续动作,模拟人在浏览器上的操作;主题B负责采集检索出来的文献信息。


其中,主题A要在连续动作里设置的动作步骤、顺序、定位表达式如上图所示。


二、开心保——采集不同年龄不同保险期限的价格

  • 场景:购买保险时,年龄和期限不同,保险价格也不同,要采集不同价格,就需要用到连续动作的点击。
  • 页面链接:http://www.kaixinbao.com/lvyou-baoxian/265825.shtml
  • 在浏览器需要两步来完成,即:点击投保年龄 -> 点击保险期限。


定义采集规则的相应步骤如下图所示,主题A用来设置连续动作,模拟人在浏览器上的操作;主题B负责采集点击后的价格信息。


主题A要在连续动作里设置的动作步骤、顺序、定位表达式如上图所示。


三、新浪微博——采集搜索的各博主资料

  • 场景:微博搜索发布过包含“爬虫”的原创微博的博主,并采集他们的个人资料。
  • 页面链接:http://s.weibo.com/weibo/%25E7%2588%25AC%25E8%2599%25AB&scope=ori&suball=1&Refer=g
  • 在浏览器只需要一个动作,即:在头像上悬浮。


定义采集规则的相应步骤如下图所示,主题A用来设置连续动作,模拟人在浏览器上的操作;主题B负责采集浮窗里的博主信息。


其中,主题A要在连续动作里设置的动作步骤、顺序、定位表达式如上图所示。


四、中原银行——查询广州市内中国银行信息

  • 场景:在中原银行联行号查询页面,查询并采集广东省广州市内中国银行的相关信息。
  • 页面链接:http://www.zybank.com.cn/zyb/zh_CN/jshj/lhhquery.html
  • 在浏览器需要四步来完成,即:选择银行 -> 选择省份 -> 选择市 -> 查询。


定义采集规则的相应步骤如下图所示,主题A用来设置连续动作,模拟人在浏览器上的操作;主题B负责采集筛选条件后的银行信息。


其中,主题A要在连续动作里设置的动作步骤、顺序、定位表达式如上图所示。


上篇文章:《连续动作的界面介绍》                      下篇文章:《数据采集、爬虫路线、连续动作三者的执行顺序》


若有疑问可以集搜客爬虫软件
1

鲜花

握手

雷人

路过

鸡蛋

刚表态过的朋友 (1 人)

相关阅读

发表评论

最新评论

评论 Fuller 2018-8-22 15:23
npcayu: 就没有A选择 B抓取A的选择结果并再选择,C抓取最终结果、这样的样例么
你需要更多级的主题吗?其实多级跟二级类似。你可以在社区那里发一个帖子,把具体网站贴出来,具体讨论抓取方案
评论 npcayu 2018-8-22 14:40
就没有A选择 B抓取A的选择结果并再选择,C抓取最终结果、这样的样例么

查看全部评论(2)

GMT+8, 2024-10-4 20:14