可视化数据采集器import.io与集搜客评测对比(下)

2016-3-20 23:44| 发布者: Fuller| 查看: 8195| 评论: 2|原作者: 数风|来自: 集搜客社区

摘要: 大数据获取平台import.io有四大功能特性:Magic, Extractor, Crawler, Connector。上篇我们对前两个做了评测,并与中国的集搜客GooSeeker做了对比,本篇将评测剩下的两个功能特性。 1. Crawler(import.io)VS爬虫 ...

大数据获取平台import.io有四大功能特性:Magic, Extractor, Crawler, Connector上篇我们对前两个做了评测,并与中国的集搜客GooSeeker做了对比,本篇将评测剩下的两个功能特性。


3. Crawlerimport.ioVS 爬虫路线(GooSeeker

CrawlerCrawler直译过来就是网络爬虫的意思,顾名思义,就是要向深度和广度方向去扩展,以期采集更多数据。CrawlerExtractor的基础上,实现了自动翻页功能。假设要采集页面数为100的网页数据,通过 import.ioCrawler功能就能一键将这100页的信息采集下来,那么具体的采集过程是如何实现的,下面笔者带你简单了解一下Crawler的采集过程。

如图5所示,以58同城租房信息为例,经过关键词搜索共找到有N个页面的租房信息,为了提取这些租房信息。Crawler操作如下:

1)采集样本数据,在第一页提取需要采集的数据(图5),采集原理同Extracor,这里就不再赘述。

5Crawle提取数据示例

2) 训练数据集,进入第二页(图6),Crawler会自动采集第二页数据(提取的字段同第一页),再翻到下一页,由于网页的结构都没有发生变化,Crawler同样会自动采集,循环此训练过程,当Crawler认为收集了足够多的训练集(据称最多支持5个样本)(图7),训练完成,点结束,保存,即可成功采集所有页面数据。

6Crawle添加页面示例

7Crawle训练样本完成

Import.ioCrawler训练过程操作确实非常的简单,易懂,只需要多选择几个同结构的页面进行测试,相当于在告诉爬虫,我就是要采集这些相似页面的信息,爬虫在了解到这些需求后,就能把这些相同结构的信息采集下来,不过也会存在一些小问题,当某些字段发生细微的变化时,因为与前面训练要采集的数据不一样,就会把这些信息给漏掉,所以Crawler比较适合结构十分固定的页面。

总结一下:

优点:灵活采集,操作简单,采集过程可视化

缺点:继承了Extractor的缺点,对数据结构化程度要求高

GooSeeker爬虫路线:集搜客的爬虫路线的实现是建立在整理箱的基础上,原理与Crawler基本相似,但适应性更广,带来的负面影响是操作相对复杂。

我们先回顾一下整理箱的建立理念,GooSeeker一直宣称的是建个箱子,把需要的内容丢进去,理念很直接,把需要的网页内容直观地摘下来,存到一个箱子中。

如图8所示,以采集京东手机信息为例,要想采集所有页面关于手机的信息数据,操作如下:

1) 创建整理箱,把要提取的数据丢进去,抓取规则就能自动生成。但是,操作起来不是像这一句话这么简单,而是:

a) 建立一个整理箱,这个简单,点下新建按钮即可

b) 在整理箱中创建字段,这些字段称为抓取内容,也就是网页上的内容要丢到这些字段中

c) DOM树上选中要抓的节点,映射给某个字段。

既然说建个箱子,把需要的内容丢进去,为什么不真的可视化地做这个操作呢?这个地方需要改进,敬请关注即将发布的新版本提供的直观标注功能。

2)构建爬虫路线,将下一页作为记号线索进行映射(如图8所示),设置完成,保存后,就能自动采集所有页面的信息了。这个过程虽然说起来很简单,但是相对Crawer,操作起来还是有一点不直观,需要做几次简单的映射,也就是告诉爬虫:这里是我要点击的这里是我要摘取的,如下图,主要操作是对着HTML DOM数做的,用户最好有简单html基础,这样就能很精确地定位到DOM节点,而不局限于可见的文字。

8:爬虫路线翻原理页示例

优点:采集准确度高,适用范围广。

缺点:可视化效果一般,上手需要一个学习实践。

综上,Import.ioCrawlerGooSeeker的爬虫路线主要完成网络爬虫扩展爬行范围和深度的任务,上面我们仅以翻页为例,层级爬行大家自己去实践体验。Crawler操作相对简单,但适应性也较窄,对网站结构一致性要求高,而爬虫路线功能相对更为强大,能适应各种复杂的网站,但操作也相对复杂。


4. Connectorimport.ioVS 连续点击(集搜客

Connector: import.ioConnector就是在网页上做动作,主要是针对网址无变化,但信息在深层次页面上。需要做了动作以后才能显示出来,但是页面的网址又不发生变化,这就大大增加了采集数据的难度,因为即使配置好了规则,结果爬虫进入的页面是初始页面,无法采集到目标信息,而Connector的存在就是为了解决此类问题。Connector可以记录这一点击过程,进而采集到目标页面的信息。

同样以58同城租房信息为例来测试Connector功能的可操作性。

1)通过点击,查询到需要采集的信息所在的页面。如图9所示,Connector可记录用户每次的点击行为。

9Connector操作示例 

2)在目标页面建立规则,提取信息。到达目标页面后,需要做的操作就跟前面的一样了,把需要采集的信息提取出来。

通过亲自动手实践,发现连续点击失败率比较高,如果是搜索的话,这一动作很容易被记录下来,但是如果仅仅是点击动作的话,很难被记录成功。可能的话,读者可以亲自试试,看看到底是什么原因导致的。

是否有些似曾相识的感觉?没错,有点像web测试工具,把动作录下来,再回放,用户体验很好,时不时出现记录不成功,看来是有些代价的,我估计还是定位不准的问题,当你记录的时候和后来去执行的时候,网页HTML DOM的稍微变化,就可能把动作做错位置了。

优点:操作简单,采集过程完全可视化。

缺点:点击动作最多只能点击10次,功能相对单一。同时从使用情况来看,Connector的记录功能失败率较高,很多时候都会操作失败,可能是直观可视化的代价。

GooSeeker连续点击:集搜客连续点击功能完全一样,正如其名字一样。实现边点击、边采集的功能,结合爬虫路线,可产生更强大的采集效果,这个算集搜客比较高级的功能了,能产生很多意想不到的采集方式,这里简单举例介绍

如图10所示,要采集微博个人相关信息,因为这些数据必须将鼠标放到人物头像上,才能将这些信息展现出来,所有需用到集搜客的连续点击功能。操作如下:

1) 采集目标字段,首先对网页定位,将这些要采集的字段采集下来,方式同上,不再赘述。

2) 设置连续动作,在执行采集之前,可以做一连串动作,所以称为连续。不如http://import.io的直观录制那么简便,需要点击创建按钮,创建一个动作,指定它点击哪里(一个网页节点,用xpath表示),并指定是哪类动作,根据需要设置一些高级选项。

3) 如图11所示,GooSeeker也相当于记录一组动作,也可以重新排序或者增删,图11可见,就没有http://import.io的类似录制过程的界面那么亲民。再一次看到GooSeeker的特点:严谨的生产工具

 

10:连续点击操作示例 

11:连续动作的编排界面

优点:功能强大,采集能力强。

缺点:上手难度较大,操作相对复杂。

综上,import.ioConnector在操作方面依旧是秉承它一贯的风格,简单易用,而集搜客也同样再次给人一个生产工具的感觉,在连续动作这个功能点上,两者基本一致。

通过以上对比,相信大家对大数据采集软件import.io和集搜客有了一个直观的了解。从各个功能对比上来看,http://Import.io的特点主要体现在可视化,易学,操作简单,致力于打造纯傻瓜式操作的采集软件。而集搜客的特点主要体现在半可视化、功能完善、采集能力强,致力于为用户提供完善强大的数据采集功能。总之两者各有千秋,都是非常不错的数据采集软件。

最后,有兴趣的读者可以去深入体验和研究,因为两者宣称的价值其实不仅仅是一个软件工具,而是目标放在互联网数据的结构化转换,把web变成大家的数据库。希望未来有机会再分享一下这方面的心得

若有疑问可以集搜客网络爬虫
1

鲜花

握手

雷人

路过

鸡蛋

刚表态过的朋友 (1 人)

相关阅读

发表评论

最新评论

评论 Fuller 2016-4-13 09:31
xiaoshimin1234: 都是广告
哈哈,到了我家,好肉好菜吃完了,不得听我卖弄一下广告?人情得讲的,心肠得热的
评论 xiaoshimin1234 2016-4-13 01:08
都是广告

查看全部评论(2)

GMT+8, 2024-4-20 10:14