资讯

批量修改下载图片名称
批量修改下载图片名称
利用集搜客所下载的图片名称是根据程序自动命名的,有时候网站有图片名称,我们也把图片采集下来,希望能批量对所下载图片进行重命名。下面教怎么批量修改图片名称。 首先把采集结果xml文件转换成excel,教程见《xml ...

2016-11-4 16:36

采集网页html源码
采集网页html源码
一、操作步骤 对于学习网页设计的人来说,有时候遇到了自己很喜欢的网页,却得不到它的html代码,或者得到的代码不完整。下面用网易新闻采集作为案例,教大家采集html源码,具体操作步骤如下: 二、案例规则+操作步 ...

2016-10-28 11:53

数据规则怎么看
数据规则怎么看
数据规则就是随着标注和映射操作立刻生成的XSLT程序,它是爬虫采集网页数据的依据,主要涉及到xpath,大家在掌握html、xml、xpath的基础上,就能很好地理解XSLT程序。查看方法是点击“测试”-“数据规则”,如下图。 ...

2016-10-28 10:57

XML文件结构
XML文件结构
相信大家在采集数据后都会发现,集搜客的爬虫软件抓取的网页数据是以XML格式保存下来的,可能有一部分人看不懂XML数据文件。所以本文以一个XML文件为例子,给大家讲讲XML文件结构内各个标签(紫色字体)的意思。 XML ...

2016-10-27 17:45

连续打码:破解各种验证码连续采数据——以工商信息网采集为例 ... ...
连续打码:破解各种验证码连续采数据——以工商信息网采集为例 ... ...
不少网站会用到验证码反爬技术,遇到这种网页就会采集失败。但是集搜客爬虫的“打码功能”可以解决出现验证码的情况,在采集网页的过程中破解各种输入型、算术型、滑块型验证码(滑块型需要定制),让爬虫能够持续有 ...

2016-10-21 12:17

飞掠模式:追踪弹窗网页采数据——以百度百家网为例
飞掠模式:追踪弹窗网页采数据——以百度百家网为例
一、操作步骤 集搜客的“飞掠模式”是专门针对那些没有独立网址的弹窗网页,就是指点击之后会弹出一个新页签但网址却不变。而“飞掠模式”可以模拟人的操作,打开一个弹窗采集完之后再打开下一个弹窗继续采集,从而 ...

2016-10-21 11:00

采集图片网址并下载图片——以途牛旅游网为例
采集图片网址并下载图片——以途牛旅游网为例
一、操作步骤 集搜客爬虫不仅能抓到网页上的文本、网址数据,还可以批量下载图片到电脑中。无论是列表页还是详情页上的图片,只要能获取图片网址都可以用集搜客爬虫来下载图片。下面就以途牛网的自助游网页为案例, ...

2016-10-20 17:16

定位标志采集列表数据——以百度旅游为例
定位标志采集列表数据——以百度旅游为例
一、操作步骤 之前的教程已经教过怎样用样例复制来采集列表数据,除了用样例复制,还可以用定位标志映射来采集列表数据。 下面用百度旅游作为案例来讲解,操作步骤如下: 二、案例规则+操作步骤 采集规则:百度旅游 ...

2016-10-20 16:41

在Python3.5下安装和测试Scrapy爬网站
在Python3.5下安装和测试Scrapy爬网站
Scrapy框架结构清晰,基于twisted的异步架构可以充分利用计算机资源,是爬虫做大的必备基础。本文将讲解如何快速安装此框架并使用起来。

2016-10-20 15:26

快速制作规则及获取规则提取器API
快速制作规则及获取规则提取器API
在网页抓取工作中,调试正则表达式或者XPath都是特别繁琐的,耗时耗力,工作枯燥,如果有一个工具可以快速生成规则,而且可以可视化的即时验证,就能把程序员解放出来,投入到创造性工作中。 ... ...

2016-10-20 10:36

定位标志精确采集范围——以安居客租房采集为例
定位标志精确采集范围——以安居客租房采集为例
一、操作步骤 如果只是简单地把信息标注出来,可以采集到样本网页的数据,但是批量采集同类网页就可能会遇到失败。这种情况下需要加上定位标志映射以提高数据规则的精度和适应性,降低网页变化带来的影响。下面用安居 ...

2016-10-19 11:36

采网址做层级采集——以大众点评为例
采网址做层级采集——以大众点评为例
一、操作步骤 前面写过两篇教程,《采集列表数据》是采集大众点评的列表页,《采集网页数据》是采集大众点评的店铺详情页,很多人想把这两个串在一起,这样就能批量采集店铺详情页的数据了。下面我们通过层级采集来 ...

2016-10-19 11:05

为采集动态网页安装和测试Python Selenium库
为采集动态网页安装和测试Python Selenium库
上一篇《为编写网络爬虫程序安装Python3.5》中测试小例子对静态网页做了一个简单的采集程序,而动态网页因为需要动态加载js获取数据,所以使用urllib直接openurl已经不能满足采集的需求了。 ...

2016-10-11 16:02

集搜客网络爬虫的核心名词
集搜客网络爬虫的核心名词
集搜客网络爬虫的操作方法很直观,想要什么,就把他们标记出来,网络爬虫就会自动把他们存下来。标记过程很自由,不讲究顺序。一、直观标注在网页上,看到想采集的内容,点击两次,就弹出一个标签,给标签起个名字。 ...

2016-10-1 12:30

为编写网络爬虫程序安装Python3.5
为编写网络爬虫程序安装Python3.5
为编写网络爬虫程序安装Python3.5。

2016-9-30 10:42

GMT+8, 2024-12-5 06:35