连续动作的相关概念

2015-10-19 10:55| 发布者: ym| 查看: 11781| 评论: 0

摘要: GooSeeker相关功能 已经有很多文章介绍集搜客软件,给人的印象是一个典型的网络爬虫,爬虫把当前网页上的内容采集下来,同时把网页上的网址也记录下来。但是,这个爬虫通常不会马上去点这个链接,而是在另外的时间, ...

GooSeeker相关功能

已经有很多文章介绍集搜客软件,给人的印象是一个典型的网络爬虫,爬虫把当前网页上的内容采集下来,同时把网页上的网址也记录下来。但是,这个爬虫通常不会马上去点这个链接,而是在另外的时间,或者交给另外的爬虫顺着新发现的网址去采集进一步的内容。

似乎现有版本直接做动作的情形很少,比如,翻页连贯抓取是一种做动作的情形,模拟点击是对连续翻页的引申,但是他们特征一致:在当前网页上只动作一次。

从集搜客GooSeeker V5.3.0版本开始,逐步增加多种动作连续执行的能力。也就是说,进入一个网页以后,不但把内容和新网址抓取下来,而且会在当前网页上模拟人做一些鼠标和键盘行为,导致网页内容改变,从而把改变后的内容采集下来。

连续点击相关概念

我们将澄清几个概念:

  • 连续
  • 多层
  • 动作
  • 循环

什么是连续?

如上图,在新浪微博上,想把所有对“登山”有兴趣的人的信息采集下来,鼠标移动到每个头像上,悬浮一会就会显示一个弹出窗体。在一个一个头像上做悬浮动作,这就称为“连续”动作,也就是对同一样的动作重复多次。


又如淘宝指数页面上的图表,鼠标悬浮在上面以后就会有数字显示,那么需要连续地移动鼠标。

什么是多层?

为了查找内容,往往要输入查询条件,而且条件不止一个,要组合在一起。所谓多层,就是多种条件组合在一起,一个条件套着一个条件,从而形成一个层次。我们尽量避免使用“嵌套”这样的技术词汇。下面看两个例子。

网友把小米手机戏称为“粗粮手机”,如果要研究微博上的舆情形式,可以利用高级搜索,输入多种搜索条件,更精准地查找微博消息。

上图是淘宝网一个小米4的商品截图,你想知道确切的价格,必须选择多个产品属性,先后选择:机身颜色-〉套餐类型-〉机身内容-〉版本类型。这个点击选择过程形成了一个层次。

动作包括那些?

请注意,下面罗列的连续动作不是一次性发布,而是从V5.3.0开始,分阶段发布出来。

  • 连续鼠标悬浮:由V5.3.0版本提供支持
  • 连续鼠标点击:由V5.3.0版本提供支持
  • 连续滚屏抓瀑布流:计划由V5.4.0版本提供支持
  • 多层条件包含输入框:计划由V5.4.0版本提供支持
  • 多层条件包含选择列表:计划由V5.6.0版本提供支持
  • 多层条件包含复选框:计划由V5.x.0版本提供支持
  • 多层条件包含单选钮:计划由V5.x.0版本提供支持
  • 连续移动鼠标抓图表:计划由V5.x.0版本提供支持

为什么不用“循环”这个概念?

循环一词极具技术特色,程序员很熟悉循环处理,但是,集搜客GooSeeker软件要广为数据分析和研究人员所接受,必须用最直观浅显的界面,让用户最容易上手。把技术细节封装起来。如果需要手工编排循环过程,那只有程序员才能玩的起。

集搜客与其他网页抓取软件不一样,集搜客不是一个封闭的黑盒子,企业版用户能充分体验到GooSeeker的开放性,而程序员用户仍然能从在线版身上找到探索的乐趣,开发者工具-〉自定义爬虫循环其实早已发布,可以编写Javascript代码直接控制GooSeeker软件中的对象,这个功能的详细使用方法将在连续动作功能发布完以后予以发布。

10

鲜花

握手
1

雷人
1

路过

鸡蛋

刚表态过的朋友 (12 人)

相关阅读

最新评论

GMT+8, 2024-10-16 14:27