文档

【第17期】样例复制及层级抓取
【第17期】样例复制及层级抓取
不少用户对样例复制和层级抓取掌握不好,简单来说,样例复制的使用情景就是,当网页上存在多个相同结构的信息时,例如列表型的网页,只需以第一个结构为样例建立整理箱并做映射,再把第一个和第二个结构的dom节点做 ...

2016-6-3 11:35

【第16期】表格型数据采集
【第16期】表格型数据采集
采集网页上的表格数据,跟采集其他网页数据的基本操作是一样的。具体来说就是,把第一行作为样例,对每个格子建立抓取内容并做映射,然后对第一行和第二行做样例复制映射,就能把整个表格抓下来,如果还要翻页的话, ...

2016-5-30 16:24

自定义xpath:精确采集
自定义xpath:精确采集
一、什么情况要自定义xpath? 同一信息有不同的网页结构 同一信息在所有网页中不一定存在 网页结构比较复杂,数据定位不准确 需要对数据进行提取过滤 爬虫路线:翻页陷入循环 设置连续动作:悬浮、点击、输入 ...

2016-5-27 18:10

小白入门:直观标注采数据
小白入门:直观标注采数据
一、定义主题名1.1 打开MS谋数台,在网址处粘贴需要采集数据的网址,按回车键等待页面加载。1.2 看到下方的浏览器窗口已经加载出页面,并且右上的页面地址自动填上,说明页面已经加载完成。1.3 在主题名处填写规则主 ...

2016-5-24 17:10

连续动作的输入联想功能
连续动作的输入联想功能
GooSeeker版本:V6.0.1及其以上1,界面介绍这是一个可选项,用户可以不用填写。如上图,希望连续动作连续不断地将关键词输入到搜索框中进行搜索,目前很多搜索功能都有输入联想功能,根据你输入的词根,联想到最热的 ...

2016-5-24 11:38

【第15期培训】xpath进阶:精确采集
【第15期培训】xpath进阶:精确采集
对于网页上不一定存在的信息、同一信息有不同的网页结构、网页结构比较复杂、数据定位不准确、设置连续动作等情况,都会用到自定义xpath,xpath相关语法可在百度搜索教程学习,本培训旨在教会大家如何在MS上使用xpat ...

2016-5-19 15:08

集搜客产品及服务概述
集搜客产品及服务概述
集搜客不仅仅是行业领先的网页抓取软件,还是一个大数据采集平台。集搜客平台提供了服务于数据采集的各个模块,如:产品、资源、教程、社区、会员中心等,除了得到爬虫软件外,您还能获得一系列支持。在首页就有在线 ...

2016-5-16 17:16

连续动作执行说明
连续动作执行说明
下面详细讲解一下关于连续动作的知识。定义连续动作的步骤的数量和顺序需要和你在浏览器中做的动作的数量和顺序完全一致。 以保险页面http://www.kaixinbao.com/lvyou-baoxian/285000.shtml 为例,我们需要采集不同 ...

2016-5-12 17:15

规划采集流程图
规划采集流程图
采集复杂页面的数据或者涉及多个页面的数据,首先要规划采集流程图,否则做规则的时候可能会无从下手。为了规划采集流程图,我们要清楚知道需要在浏览器做哪些动作才能得到最终采集信息。 下面以几个网页为例教大家 ...

2016-5-12 16:51

【第14期培训】快速入门网页数据采集培训
【第14期培训】快速入门网页数据采集培训
本次培训给大家介绍集搜客爬虫的直观标注功能,直接对网页信息进行标注,然后保存规则就能采集到标注过的信息,此操作非常简便,适合新手使用,此外,集搜客官网上还有各种资源,可以学习和使用,助大家提升能力。 ...

2016-5-12 09:59

通过会员中心把xml转为excel
通过会员中心把xml转为excel
登录集搜客官网,进入会员中心,通过爬虫管理的规则管理或数据管理就可以转excel格式,具体有以下三种方式: 方式1:通过爬虫群采集并设置自动入库,就能导出excel数据。 操作:通过爬虫管理-规则管理,点击主题名进 ...

2016-5-9 17:34

【第13期培训】通过会员中心管理爬虫、规则、线索、数据
【第13期培训】通过会员中心管理爬虫、规则、线索、数据
登录集搜客官网进入到会员中心,您可以看到爬虫、规则、线索、数据的管理模块,在这里您能够直观地监测到规则以及线索的采集情况,还能控制爬虫采集某个规则的周期、控制翻页数、设置增量采集最新数据、导出数据等等 ...

2016-5-6 17:29

如何采集PDF内的信息?
如何采集PDF内的信息?
1、通过火狐浏览器的工具菜单-选项-应用程序,点击“便携式文档格式(PDF)”右侧下拉菜单,设置为“在Firefox中预览”,这样网页上的pdf链接就能通过火狐浏览器直接显示为pdf网页。 2、打开一个pdf链接,就能看到 ...

2016-5-6 16:04

【第12期培训】如何通过爬虫群高效采集数据
【第12期培训】如何通过爬虫群高效采集数据
集搜客从5.7.2版爬虫以来,在MS的配置菜单中增加了直观标注功能,大家想要使用标注功能的话,请去MS里设置配置菜单-标注-显示。另外,集搜客官网也增加一个新功能——爬虫罗盘,用于监控爬虫群所采集规则的运行情况 ...

2016-4-28 13:10

【第11期培训】网页分析工具知识培训
【第11期培训】网页分析工具知识培训
火狐工具菜单上有个强大的功能——Web开发者,用于分析及调试网页,对数据采集也有很大帮助,今天,给大家培训一下其中三个常用功能:查看器、控制台、网络,另外,集搜客爬虫的MS也常用于网页分析,希望大家把这些 ...

2016-4-20 17:43

热门排行

关注我们

GMT+8, 2024-12-4 20:32