文档

【第25期】连续动作采知网文献
【第25期】连续动作采知网文献
连续动作能够模拟点击、输入、选择、悬浮、滚屏、提交等交互操作,实现智能地深入网页采集。大家知道中国知网就是一个典型交互式网页,必须通过层层条件筛选,才能浏览到想要的数据。本期培训就以中国知网的文献采集 ...

2016-8-5 18:17

【第24期】连续动作
【第24期】连续动作
通过连续动作能够模拟人在浏览网页时的操作,从而逐个点击进行数据抓取。现在不少动态网页需要交互操作,才能浏览到最终数据,而连续动作的目的就是模拟人在浏览网页时的操作,从而得到最终显示出来的数据。要用好连 ...

2016-7-29 10:07

自动点击京东商品价格条件,智能采集价格数据
自动点击京东商品价格条件,智能采集价格数据
我们在购物网站浏览商品时,通常可以有多种组合的购买,对同一个商品选择颜色、尺码等等,会得到不同的价格。那么,如果把人的点击行为变成机器自动点击,要如何实现呢? 通过连续动作能够模拟人在浏览网页时的操作 ...

2016-7-26 18:22

集搜客GooSeeker网络爬虫之采集大众点评店铺信息数据
集搜客GooSeeker网络爬虫之采集大众点评店铺信息数据
【第21期】GooSeeker集搜客之采集大众点评店铺信息 一、 采集板块列表页面——确认抓取内容 1) 输入目标网址(例如:http://t.dianping.com/list/shenzhen-category_1),按Enter键,然后在工作台上输入主题名,然 ...

2016-7-22 15:49

【第23期】精确定位采集网页信息
【第23期】精确定位采集网页信息
选择具有属性值id或class的节点给抓取内容做上定位标志,可以限定到一个采集范围,也能提高规则的适应性。 若有疑问可以或

2016-7-21 18:10

表格型数据采集
表格型数据采集
一些网页上的数据是以表格的形式呈现的,表格数据采集,和其他的网页数据采集的基本操作是一样的。 具体的操作是,把第一行表格的数据作为样例,将其中想要要抓取的数据做内容映射,然后对第一行和第二行做样例复制 ...

2016-7-21 17:12

主题、规则、整理箱、线索四者的关系
主题、规则、整理箱、线索四者的关系
主题是采集某类网页的多个规则的工作组,当某类网页有多种网页结构时,例如淘宝的商品详情页面就有多种网页结构,这时,我们可以在同一个主题下建立多个规则,以覆盖多种网页结构,这样只要运行一个主题,就能覆盖采 ...

2016-7-15 13:00

怎么在同一个主题名下建立多个规则
怎么在同一个主题名下建立多个规则
主题、规则、线索三者的关系 主题是采集某类网页的多个规则的工作组,当某类网页有多种网页结构时,例如淘宝的商品详情页面就有多种网页结构,这时,我们可以在同一个主题下建立多个规则,以覆盖多种网页结构,这样 ...

2016-7-15 12:10

【第22期】安居客房产信息采集
【第22期】安居客房产信息采集
本期培训的主题是采集安居客房产信息,我们选择了二手房的分类目录,进入到二手房的网页列表,就从这个网页开始,做第一级规则是为了批量采集到下级房产详情的标题和链接,做第二级规则是为了批量采集房产详情的信息 ...

2016-7-14 17:57

【第21期】大众点评店铺信息采集
【第21期】大众点评店铺信息采集
本期培训以大众点评网为例,给大家实际演示整个的数据采集操作,我们要实现的目标是从目录列表页开始,批量采集某个分类下的所有店铺信息。本案例做了两级规则,第一级规则是采集某类别的列表页,用到了样例复制、下 ...

2016-7-8 15:48

如何把下载的大量图片自动匹配到excel中?
如何把下载的大量图片自动匹配到excel中?
1. 首先我们需要将gooseeker软件采集到的xml结果文件转成excel格式。具体方法见教程版块-初级教程-xml转excel.2. 观察列“pic_bitmap”,红框为文件夹名字(一个页面会生成一个对应的文件夹),绿框为图片名称,于是 ...

2016-7-8 14:22

【第19期】 翻页及层级抓取
【第19期】 翻页及层级抓取
如果您的采集入口是搜索后的页面,但想要自动点击每条搜索结果,进入到详情页面采数据,这就要用层级采集(对链接设置下级线索),通过链接深入到下一层网页进行采集。如果搜索结果有多页,规则里也可以同时设置上翻 ...

2016-6-24 14:44

集搜客网络爬虫之连续动作常见错误
集搜客网络爬虫之连续动作常见错误
学到这里,想必大家对于网页数据抓取都已经得心应手了,也开始学习连续动作,但有时候好不容易写完了连续动作的表达式,DS打数机却不会做动作,也不知道错在哪里,无从下手进行检查修改。下面对于用户常见的错误进行 ...

2016-6-20 15:05

【第18期】样例复制及翻页
【第18期】样例复制及翻页
第17期培训给大家讲解了样例复制和层级抓取,本期培训就给大家介绍样例复制和翻页。很多人问过,翻页和层级抓取是否可以共存在一个规则中,其实是可以的,每个规则里都可以同时设置翻页和下级线索,根据下级线索指向 ...

2016-6-17 14:55

怎样解决规则采集失败/遗漏的问题?
怎样解决规则采集失败/遗漏的问题?
大部分新手做出来的规则,能采到数据,但都会遇到采集失败或遗漏的情况,根本原因是规则不够完善,要采到准确无误的数据是需要经验和技巧的,另外,各个网站结构也是存在差异的,所以,别以为做好规则就能高枕无忧了 ...

2016-6-13 18:07

热门排行

关注我们

GMT+8, 2024-4-25 21:01