观看视频教程 海量规则模板,免去做规则烦恼 如果你不会做规则但又非常想直接抓取数据,或者是觉得做规则很难、耗时费力的初学者,可以到集搜客的资源库直接下载规则模板,直接抓取数据,体验规则是如何定义和运行的,会让你改观对网络爬虫的认识,抓取网页数据无需学会Python、Java、C++等编程语言,使用集搜客软件去资源库下载规则模板,一样可以轻松抓取到海量网络数据; 集搜客的资源库拥有大量成熟的规则模板,提供微信、微博、电商、新闻、论坛、行业等多种网站的采集规则模板,可以满足大多数人的数据需求,一键轻松抓数据,免去做规则烦恼。 下载规则的使用方法: 1、下载规则后运行DS打数机采集数据 去资源库下载规则后,就会提示下载完成和现在运行,点击运行就会弹出DS打数机采数据;如果想以后再运行的话,有以下两种方法:
注意:一开始采到的就是样本网页的数据,这是做规则时自动生成的,也是给用户测试用的,如果运行正常就说明规则是有效的,不想要样本网页数据的话,撤销线索的方法:右击主题名,选择“管理线索”->“撤销所有线索”;删除线索的方法:去集搜客官网的会员中心->爬虫管理->规则管理,删掉样本网址。 2、添加/激活线索网址 当网址都采完了,会提示没有等待抓取的线索,可以添加/激活线索,添加/激活线索网址的方法如下: 方法1:通过会员中心的爬虫管理来添加/激活:在集搜客官网的会员中心->爬虫管理->规则管理进行添加/激活操作。
方法2:通过DS打数机的管理线索来添加/激活:在DS打数机里右击主题名,选择管理线索->添加/激活线索。 3、查看结果文件、导入excel 采完数据后要到本地的DataScraperWorks文件夹查看结果文件,如需导入excel,可参考如何将XML结果文件导入excel 4、查看修改规则 规则是存储在服务器中,查看规则的话就要到MS谋数台搜规则里加载查看和修改,详见规则怎么查看、修改、另存、删除 |