海量规则模板,免去做规则烦恼。 如果你不会做规则但又非常想直接抓取数据,可以到集搜客的资源库直接下载规则模板,直接抓取数据。 集搜客的资源库拥有大量成熟的规则模板,提供微信、微博、电商、新闻、论坛、行业等多种网站的采集规则模板,可以满足大多数人的数据需求。 如何下载、运行规则? 1. 下载安装集搜客数据管家(增强版网络爬虫) 下载安装过程见《下载安装Gooseeker数据管家》。 2. 打开集搜客官网 在数据管家打开集搜客官网 https://www.gooseeker.com/index.html,检查爬虫和数据管家是否登陆,服务器是否连接。如果服务器没有连接,重新登陆爬虫,重选服务器 https://www.gooseeker.com 3. 进入规则市场,浏览查找规则 在官网首页,选择 服务-规则市场 4. 下载规则 比如想要下载B站视频搜索列表_教程,在规则市场选中它,进入这个规则的下载页面。点击下载。注意下载之前,仔细阅读规则介绍,了解这个规则是否需要提前在数据管家登陆待采集网站,是否需要和其它规则合用等等。 点击下载后,出现如下提示: 5. 采集数据 如果选择“查看下载规则”,会转到任务管理页面,按启动采集的方式二采集数据。 如果选择“现在运行”,弹出对话框: 对于我们下载的B站视频搜索列表_教程,目前只有一个待采集网址,所以网址数量是1,这个列表有很多页,不限制翻页次数,就会翻到底,把所有的页都采集到。我们为了早点看到采集结果,限制了翻页次数,只采集3页。 点击确定。系统自动弹出采集窗口,开始采集数据。 采集完成后,按提示点击导出excel 系统会自动跳到这个规则的任务管理窗口,点击导出数据。
下载的数据是一个ZIP包,保存在电脑的下载文件夹。 双击这个ZIP数据包,会自解压,得到excel文件。数据截图: 6. 给规则批量添加线索,批量采集数据 我们下载了规则,可不只是为了采集样本页面的数据。和样本页面类似的网页的数据都可以采集。把相应的网页链接添加到这个规则中就可以了。 比如,这个规则的样本页面是在B站搜索“王者荣耀“的搜索列表页面 样本页面: 类似的网页: 把这个链接添加到规则中,可以采集这个列表页的数据。 总之,下载了规则后,就可以把这个规则当成自己的规则一样使用,添加要采集的网页链接,运行它,采集数据。 |