集搜客GooSeeker网页抓取套件
MS谋数(台)—— MetaStudio:抓取规则定义软件
DS打数(机)—— DataScraper:执行网页抓取的网络爬虫
MC数满仓—— MetaCorpora:抓取结果入库清洗软件
谋定而后打,必定大数据满仓
规格 | 详细说明 | 费用 |
---|---|---|
集搜客GooSeeker抓取软件的组件 | ||
MS谋数台 | 指定抓取内容,定义抓取结果存放结构,自动生成抓取规则 | √免费 |
DS打数机 | 是网络爬虫软件,使用抓取规则,把网页数据抓取下来,存成结构化的XML结果文件 | √免费 |
集搜客GooSeeker抓取软件的功能 | ||
集成化图形界面 | 包括网页结构窗口、工作台、显示窗口等子窗口。选取被抓取内容时,三个子窗口联动,并显示HTML节点的重要属性 | √免费 |
抓取规则自动生成 | 指定抓取内容,定义抓取结果存放结构(整理箱),然后将网页内容分别映射给整理箱中的抓取内容,MS谋数台即可自动生成抓取规则 | √免费 |
抓取规则即时验证 | 点击界面上的按钮,可即时验证抓取规则的有效性,若达不到预期,可立即进行修改,不用等到DS打数机实际抓取时才验证,大大提高工作效率 | √免费 |
直观验证以前定义的抓取规则是否有效 | 网页结构变化会导致以前定义的抓取规则失效,不用人工阅读抓取规则指令,只需加载以前的抓取规则,MS谋数台会自动加载样本网页,并验证抓取规则的有效性,如果哪个抓取内容无法定位,则会在输出信息中提示错误原因 | √免费 |
所见即所得地修改以前定义的抓取规则 | 在验证抓取规则有效性后,如果哪个抓取内容无法定位,则重新对这个抓取内容做映射操作,即可生成新抓取规则 | √免费 |
对网页编程技术透明 | 集搜客GooSeeker用户不用关心目标网站和网页采用的编程技术,显示在网页上的内容通常都可抓取,包括AJAX即时生成的动态内容 | √免费 |
原始网页内容纠错 | 网页的发布者在写网页的时候可能存在语法和词法错误,只要是火狐浏览器能打开的,都能定义抓取规则并进行抓取 | √免费 |
对网页编码透明 | 所有编码格式不加区别,用户不必操心网页具体的编码,只要是合法的能够被火狐浏览器解析和显示的网页都用统一的方法定义抓取规则和进行抓取 | √免费 |
抓取服务器侧动态网页 | 服务器侧网页可以采用各种动态技术,比如,ASP,JSP,PHP,CGI等等,集搜客GooSeeker不加区别,都用统一的方法定义抓取规则并进行抓取 | √免费 |
JS实现的动态网页 | 集搜客GooSeeker提供一系列手段,确保JS动态网页内容抓取的正确性和完整性,而且网页抓取规则定义方法与普通网页一致,所见即所得的方式让用户觉察不到哪些JS代码执行了什么操作 | √免费 |
post和get一致处理 | DS打数机并不关心向服务器发送的是post还是get消息,因为DS打数机模拟用户的行为只管点击指定的按钮或超链接,至于是post还是get,由低层函数库根据HTML网页上的内容自动识别处理 | √免费 |
抓取用JS实现的分页 | 如果内容很长,网站会分成多个网页,如果用JS实现翻页,往往每个分页没有独立的URL地址,集搜客GooSeeker可以像抓取普通分页一样,连续模拟点击翻页按钮或者超链接,抓取每一分页的内容 | √免费 |
模拟点击抓取 | 集搜客GooSeeker可模拟用户用鼠标点击网页上确定位置的按钮或者超链接,并在点击后抓取变化了的网页内容 | √免费 |
开发者模式提高JS内容抓取能力 | JS是一个全特性编程语言,它可以完成的网页展示行为情形是无限的,在开发者模式下,用户输入自定义JS代码,驱动网络爬虫,使用MS和DS的爬虫函数库,适用于各种JS内容情形,比如,连续鼠标悬浮、点击、键盘录入等 | √免费 |
防屏蔽抓取 | 有些目标网站可能根据点击行为特征屏蔽网络爬虫的过度访问,集搜客GooSeeker采用技术手段尽量避免被屏蔽 | √免费 |
随机延迟 | 通过设置最小延迟时间和最大延迟时间,每抓完一页,DS打数机会随机在这个区间找一个延迟时间,过后才启动下一页抓取 | √免费 |
高仿真模拟点击 | 为了混过网站的反网络爬虫识别程序的检测,集搜客GooSeeker程序通过给鼠标点击事件赋予更逼真的参数,可以在一定程度上突破反网络爬虫检测 | √免费 |
爬虫群并行抓取 | 把爬虫分布到不同电脑上,甚至可以部署在不同地点,可以利用集搜客社区平台广泛邀请GooSeeker会员,执行会员互助抓取 | √免费 (明级会员) |
清理运行状态 | 使用ADSL等动态分配地址的部署方式,定期拨号更换IP地址,也可在火狐浏览器上清除cookie和缓存 | √免费 |
抓取结果本地存储 | 抓取结果是XML格式文件,一个目标网页对应一个文件,抓取结果默认存储在Windows用户目录下的DataScraperWorks文件夹,含有语义标签的XML格式利于与第三方系统集成。可以批量导入到excel,也可以成批压缩打包传送给集中管理程序 | √免费 |
抓取结果存储路径规划 | 缺省情况下,抓取结果存储在系统盘C中,为了防止过度消耗系统盘的可用空间,可通过DS打数机的菜单,把存储目录指向别处,可规定每个文件夹存储的结果文件数量,DS打数机能自动创建深层文件夹,存储更多文件。为了防止创建过深的目录结构,可定期修改顶层目录的指向 | √免费 |
断点续抓 | 在网络拥塞、设备断电、宕机、程序不可自修复故障、维护性或者意外关闭情况下,抓取程序重新恢复运行后,能够从任务中断处接着进行抓取 | √免费 |
接替故障爬虫的抓取任务 | DS打数机组成的网络爬虫集群工作在协同方式下,某台计算机失败,则集搜客服务器不再为其分配任务,那么正常的爬虫自然会接替这台计算机的工作 | √免费 (明级会员) |
自动登录和输入验证码 | 软件具有自动登录功能,如果遇到验证码,可与打码平台对接,将打码平台返回的码值自动录入,无需人工看管。自动登录所需的账号密码信息需配置在周期性抓取调度文件中,文件名crontab.xml | √免费 |
手工预先登录 | 运行火狐浏览器并手工访问并登录目标网站,再运行集搜客软件,集搜客软件就能使用此手工预先登录状态 | √免费 |
手工启动测试网络爬虫 | 用MS谋数台定义完抓取规则,并执行了保存操作,则在谋数台工具条上可以点击“爬数据”按钮启动一个测试用网络爬虫,即时验证抓取的正确性 | √免费 |
手工启动“单搜”网络爬虫 | 单搜就是一次只使用一个抓取规则抓取一批网页,也就是说网络爬虫线程是独占的。便于观察失败情况,主要用于为一个项目专注抓一批网页内容 | √免费 |
手工启动“集搜”网络爬虫 | 集搜就是能用一群网络爬虫线程同时抓取网页,每个线程服务一个抓取规则。主要用于要抓取的网站多,还想人工观察抓取进度的情形 | √免费 |
周期性自动启动爬虫群 | 在网络爬虫计算机上配置周期性抓取调度文件(crontab.xml),可以启动多个爬虫线程,每个线程服务一个抓取规则,多个线程也可服务同一个抓取规则。可设定周期性调度参数 | √免费 |
会员协同抓取 | 创建一个工作组,邀请其他会员加入工作组,每个会员的DS打数机都可以为相同的抓取规则服务,每个计算机也可以运行多个线程,提高抓取能力 | √免费 (明级会员) |
增量抓取 | 对于不断发布新内容的网站,没有必要重复抓取以前抓取过的内容,通过在周期性抓取调度文件中设定相应参数,可以只增量抓取新内容 | √免费 |
网络爬虫路径规划 | 互联网的页面由超链接相互连接起来就像一张蜘蛛网,DS打数机称为网络爬虫,MS谋数台定义抓取规则的时候可以设定下级线索,指示打数机进行深度和广度扩展 | √免费 |
不限深度不限广度 | 集搜客对网站深度和广度不设限,任由您规划。集搜客对采集数量不设限,不会根据时间或者根据网页数量扣取积分或者费用,您把整个互联网下载下来都行 | √免费 |
深度和宽度可限定 | 必要的时候,您可限定深度和宽度,以节省网络爬虫的计算机资源。在周期性抓取调度文件中进行设定 | √免费 |
连贯抓取和非连贯抓取 | 连贯抓取主要用于翻页抓取,也用在多个抓取规则之间连续跳转页面抓取,比如,ajax页面的连续模拟点击抓取。也可以不设定连贯抓取,那么为跳转到的页面生成独立线索,可以在另外的线程中抓取新线索 | √免费 |
抓指数图表 | 利用开发者扩展接口,允许技术基础高的用户用Javascript自定义更高级的网络爬虫动作,比如:驱动鼠标在图表上移动,抓取悬停后显示的数据、模拟人的连续的鼠标点击动作、连续地输入查询条件。 | √免费 |
高效率抓取 | 为了提高抓取效率,尤其在无人值守长期运行的情况下,DS大数据提供多个设置参数,可确保高效运行 | √免费 |
自动关闭弹窗 | 勾选“关闭弹窗”之后,爬虫会自动关闭所有新近开启的火狐窗口,可以防止打开过多窗口导致内容耗完 | √免费 |
配置浏览器加载选项 | 可告知DS打数机,不要加载图片、插件、js代码等,从而提高抓取速度 | √免费 |
使用集搜客资源库 | ||
模板套用 | 在集搜客资源库中,分门别类存放着抓取规则,只需点击“下载”按钮,即可在会员中心一键启动集搜客网络爬虫。省却自己定义抓取规则的麻烦,像直接套用网页模板一样使用发布出来的规则。对于初学者或者业务目标导向的用户,模板资源套用是一条捷径 | √免费 |
网页上直接启动网络爬虫 | 在集搜客的资源库中,可直接下载运行他人发布的抓取规则,启动爬虫进行抓取 | √免费 |
发布抓取规则 | 原创的抓取规则可以发布到集搜客的资源库中,如果其他用户下载了您发布的规则,会向您支付相应积分 | √免费 |
规格 | 详细说明 |
---|---|
集搜客GooSeeker的性能 | |
网络爬虫核心程序用C++编写 | 高性能的决定要素,Java网络爬虫无法相比,PHP、Python、Ruby等解释性语言就更加无法谈性能 |
并行线程数:20 | 与计算机配置有关,建议控制在20个线程以内 |
协同化网络爬虫数:不限 | 多台计算机既提高性能,又防止被封锁,可邀请异地的会员互助抓取,云采集模式无法相比 |
定时抓取的时间精度:1秒 | 要抓取变化很快的数据,比如,来自不同网站的机票价格比价,需要对不同网站执行同时抓取,时间同步误差可以控制到1秒钟 |
运行保障 | |
界面日志 | 每个DS打数机窗口的下部是日志列表,用户可直观地观察网络爬虫工作情况,失败的线索都罗列在日志中 |
线程级性能统计 | 每个DS打数机线程窗口上都有一个性能统计按钮,点击后可以看到抓取的网页数量,成功的数量,总花费时间,平均一个网页抓取时间,通信字节数等 |
网络爬虫日志文件 | 每个网络爬虫计算机都在本地硬盘中记录所有线程的工作日志,当前日志文件名是metaseeker.log.txt,如果日志文件长度达到2M,则自动另创建一个当前文件 |
软件故障自动恢复 | 为了满足无人值守的要求,DS打数机采用看门狗程序监测每个窗口的运行状态,如果某个窗口出现故障,则看门狗程序自动重启该窗口,以从故障状态中恢复过来 |
软硬件环境要求 | |
MS谋数台硬件要求 | 较高的显示器分辨率会有更大的可视范围,可以提高抓取规则定义效率,推荐使用分辨率1680X1050及以上的显示器。如果是小屏笔记本,可选择移动工作台界面布局模式 |
DS打数机硬件要求 | 硬件配置高可以运行更多线程,通常选择当前市面上中等配置PC机,Windows下,DS大数据最多可用内存量不超过4G |
MS谋数台和DS打数机的软件环境 | Windows操作系统,通常PC机的操作系统是Win7,Win8等,需安装火狐浏览器。如果需要运行在Linux操作系统和Mac操作系统上,需与客服联系 |