可视化数据采集器import.io与集搜客评测对比(上)

2016-3-15 10:52| 发布者: xandy| 查看: 11187| 评论: 0|原作者: 数风|来自: 集搜客社区

摘要: 最近国外一款大数据采集软件import.io比较火,在获得了90万美元的天使轮融资后,最近更是拿到了1300万美元的A轮融资,吸引了众多投资者的目光。

最近国外一款大数据采集软件import.io比较火,在获得了90万美元的天使轮融资后,最近更是拿到了1300万美元的A轮融资,吸引了众多投资者的目光,笔者也怀着好奇使用体验import.io的神奇功能,本人是中国的大数据采集软件集搜客GooSeeker的老用户,所以喜欢把两者放在一起对比,下面我把印象最深的几点功能对比说明,对应import.io的四大特色功能:Magic、Extractor、Crawler、Connector,分成上下两篇。

对于数据采集比较感兴趣的朋友,我希望能起到抛砖引玉的作用,大家一起分析数据采集的技术亮点。

1. Magic(Import.io) VS 天眼和千面(集搜客)

Magic: 正如单词magic的原意“魔法”一样,import.io给Magic赋予了魔法般的功能,用户只要输入网址,Magic工具就能把网页中的数据整齐规范地神奇地抓下来。

如图1所示,输入58同城租房信息网址后,Magic会自动对网页数据进行采集,操作简单。但可以看到有些列,会存在漏采的情况,且每页需要点“Next page”才能进行采集,无法自动翻页。当然,还有很多网页几乎什么都采集不下来,比如,新浪微博。

无论如何,我感觉很神奇:

  • 他怎么知道我想要什么信息?
  • 是不是有人在后台预先做好的?
  • 有些网址输入以后等待时间较短,有些网址输入以后等待时间很长,难道真的有人在后台做采集规则?

图1:Magic自动抓取示例

上图是import.io的Magic功能的界面截图,纯web界面,不用安装额外的软件,使用十分方便。总结一下:

  • 优点:适应任何网址,操作非常简单,自动采集,采集结果可视化。
  • 缺点:无法选择具体数据,无法自动翻页采集(是我没用熟?)。

GooSeeker的天眼和千面系列:集搜客的天眼和千面分别针对电商和微博发布的数据采集便捷GUI界面,只要将网址输入,就能将目标数据规范整洁地采集下来。

如图2所示:展示的是博主采集工具(微博的多方面数据分别都有采集管理界面),输入博主主页链接,就能调度爬虫,对博主主页下的信息进行采集,如微博内容、转发、点评等数据。

图2:GooSeeker微博博主采集界面示例

界面也很简洁,与Import.io相比,有个最大的不同就是用户自己运行爬虫群,采集量大那就多运行一些,而且能直接得到原始数据,是存在本地硬盘上的做了结构化转化的XML格式的结果文件。

  • 优点:操作非常简单,能自动翻页采集,微博上能看到的重要字段都采下来。
  • 缺点:采集数据字段已限定,仅能采集GooSeeker官方限定的网站。

从上分析可以看出,Magic和GooSeeker的天眼、千面在操作上都非常简单,基本都属于纯傻瓜式操作,很适合只想专注于业务问题,不想为技术问题所分心的用户,也是纯小白学习数据采集和使用数据结果的好起点。但Magic在采集结果可视化上要比天眼及千眼的适用性更广,缺点就是大数据量的采集场景不可控,而天眼和千面专注于几个主流网站,优势主要体现在可以完成大数据量的采集,比如,一个专业的市场研究或者消费者研究团队,需要百万、千万级的数据,只要你运行足够多的网络爬虫,不会因为采集量的问题而拖你数据研究的后腿。

2. Extractor(import.io) VS 整理箱(集搜客)

Extractor:Extractor翻译过来就是提取器,如果从实体的角度去理解,那就是将网址中想要的信息一个个提取出来的一个小程序(可能是一组脚本);如果从采集目标的角度去理解,那就是采集特定网页结构的一个规则。同Magic不同,import.io的Extractor(以及后面的另外两个功能)是个独立可运行的软件,有非常直观的可视化界面,能直观地将提取的信息展示出来。

如图3所示:import.io的Extractor很像一个改造过的浏览器,在工具条中输入网址,待网页显示出来后,在浏览器中选择需要抓取的数据,就能将单页同结构的数据整列规范有序地采集下来。

图3:Extractor提取数据示例

  • 优点:灵活采集,操作简单,可视化程度高。
  • 缺点:对采集数据的结构化程度要求很高,对于结构化程度较差的数据,不能很好的进行采集。

GooSeeker整理箱:集搜客宣称的是“建个箱子,把你要的内容丢进去”,这个箱子就是所谓的整理箱,原理是将需要提取的信息一个个拖到箱子里面一一映射到整理箱,集搜客程序就能自动生成提取器(一段脚本程序),提取器自动存入云服务器,可分配给世界各地的网络爬虫进行提取。

如图4所示,import.io顶部的一条工具条在GooSeeker这里展开成了一个工作台,在工作台上创建箱子,然后通过映射操作把网页上的内容丢到箱子中。想要什么就把什么丢进箱子。原理看起来很简单,但是面对一个箱子大界面和诸多的HTML节点,对新手来说有点压力,当然,界面复杂换来的是能处理更多复杂的情形,因为有更多控件可用。

图4:整理箱提取数据示例

  • 优点:提取准确度可细调,提取字段灵活,同时也适应较复杂的网页。
  • 缺点:可视化效果一般,需要掌握简单html基础知识。

综上,Extractor和整理箱都具有提取信息字段的功能,Extractor操作起来相对更简单直观,适合一些简单结构化的网址,但对一些稍微复杂的网址,Extractor就会出现无法提取的问题,这时候集搜客整理箱的优势就凸显出来了,在尤其复杂的情况下还可以用上自定义xpath来定位数据。


若有疑问可以集搜客网络爬虫
1

鲜花

握手

雷人

路过

鸡蛋

刚表态过的朋友 (1 人)

相关阅读

最新评论

GMT+8, 2024-4-20 18:47