资讯

连续动作概念:掌握JS动态网页信息采集
连续动作概念:掌握JS动态网页信息采集
下面会从连续动作的适用范围、动作类型、如何使用连续动作、连续动作的循环执行说明等四个方面,全面地介绍连续动作的知识点。 一、连续动作的适用范围 越来越多的网页使用了JS动态技术,即网页信息不是立马显示出来 ...

2016-12-29 15:38

新浪微博数据采集攻略
新浪微博数据采集攻略
新浪微博页面的组合采集攻略如下(绿框是页面名称,橙色字体是采集结果表中的网址字段): 1、从“微博关键词搜索结果”展开采集更多页面信息 方法:从“微博关键词搜索结果”的数据表中,把“博主主页”这列的网 ...

2016-12-28 16:45

推荐一款简单易用的在线中文分词工具
推荐一款简单易用的在线中文分词工具
最近要对微博和京东的手机评论分别做分析,类似语义研究,需要对文本数据进行分词,再找出有用的词语,进行标签分类,后面还有一堆的处理步骤,此处省略一万字,但是,单单前面分词这里就弄得头大,原因是本人小白不 ...

2016-11-23 11:06

集搜客文本分词标注工具使用指南5-如何使用打标结果
集搜客文本分词标注工具使用指南5-如何使用打标结果
六、如何使用打标结果 用文本分词标注工具可以输出下面四个表,可能对于一些人来说,这样的数据会比较陌生以及不知如何做计算,下面就说说一些思路,但实际的用途不限于这些。 1、标签词库 统计频数,计算权重,进行 ...

2016-11-15 16:24

集搜客文本分词标注工具使用指南4-下载打标结果
集搜客文本分词标注工具使用指南4-下载打标结果
四、下载、查看打标结果 使用文本分词标注工具可以输出四个excel表,无论第2或第3步是否完成,都可以去下载已打标的数据,这些都是语义分析和文本分类的基础数据。 1、标签词库:对应第2步的操作结果; 2、情感词库 ...

2016-11-15 16:15

集搜客文本分词标注工具使用指南3-识别情感词
集搜客文本分词标注工具使用指南3-识别情感词
三、识别标签词所在句子中的情感词 用文本分词标注工具筛选完标签词后,可以继续第3步操作,目的是识别出名词所在句子中的形容词,并判断出具有的情感色彩(好中差),大家可以根据需要来选择是否进行。 在“筛选结 ...

2016-11-15 15:48

集搜客文本分词标注工具使用指南2-筛选标签词
集搜客文本分词标注工具使用指南2-筛选标签词
二、根据研究目的筛选标签词 数据导入成功后,进入第2步筛选标签词,也就是文本分类中的特征选择和特征抽取的步骤。在这里,我们会看到按照词频降序排列的分词结果,而我们要做的是逐屏浏览,选出要研究的词语。 很 ...

2016-11-15 15:41

集搜客文本分词标注工具使用指南1-导入数据
集搜客文本分词标注工具使用指南1-导入数据
下面以京东的手机评论为例介绍集搜客文本分词标注工具的用法。 一. 建立打标任务、导入只有一列数据的excel表 点击“新建任务”,就开始第1步导入数据,在这里,要自定义任务名称,导入只有一列数据的excel表,注意e ...

2016-11-15 15:30

批量修改下载图片名称
批量修改下载图片名称
利用集搜客所下载的图片名称是根据程序自动命名的,有时候网站有图片名称,我们也把图片采集下来,希望能批量对所下载图片进行重命名。下面教怎么批量修改图片名称。 首先把采集结果xml文件转换成excel,教程见《xml ...

2016-11-4 16:36

采集网页html源码
采集网页html源码
一、操作步骤 对于学习网页设计的人来说,有时候遇到了自己很喜欢的网页,却得不到它的html代码,或者得到的代码不完整。下面用网易新闻采集作为案例,教大家采集html源码,具体操作步骤如下: 二、案例规则+操作步 ...

2016-10-28 11:53

数据规则怎么看
数据规则怎么看
数据规则就是随着标注和映射操作立刻生成的XSLT程序,它是爬虫采集网页数据的依据,主要涉及到xpath,大家在掌握html、xml、xpath的基础上,就能很好地理解XSLT程序。查看方法是点击“测试”-“数据规则”,如下图。 ...

2016-10-28 10:57

XML文件结构
XML文件结构
相信大家在采集数据后都会发现,集搜客的爬虫软件抓取的网页数据是以XML格式保存下来的,可能有一部分人看不懂XML数据文件。所以本文以一个XML文件为例子,给大家讲讲XML文件结构内各个标签(紫色字体)的意思。 XML ...

2016-10-27 17:45

连续打码:破解各种验证码连续采数据——以工商信息网采集为例 ... ...
连续打码:破解各种验证码连续采数据——以工商信息网采集为例 ... ...
不少网站会用到验证码反爬技术,遇到这种网页就会采集失败。但是集搜客爬虫的“打码功能”可以解决出现验证码的情况,在采集网页的过程中破解各种输入型、算术型、滑块型验证码(滑块型需要定制),让爬虫能够持续有 ...

2016-10-21 12:17

飞掠模式:追踪弹窗网页采数据——以百度百家网为例
飞掠模式:追踪弹窗网页采数据——以百度百家网为例
一、操作步骤 集搜客的“飞掠模式”是专门针对那些没有独立网址的弹窗网页,就是指点击之后会弹出一个新页签但网址却不变。而“飞掠模式”可以模拟人的操作,打开一个弹窗采集完之后再打开下一个弹窗继续采集,从而 ...

2016-10-21 11:00

采集图片网址并下载图片——以途牛旅游网为例
采集图片网址并下载图片——以途牛旅游网为例
一、操作步骤 集搜客爬虫不仅能抓到网页上的文本、网址数据,还可以批量下载图片到电脑中。无论是列表页还是详情页上的图片,只要能获取图片网址都可以用集搜客爬虫来下载图片。下面就以途牛网的自助游网页为案例, ...

2016-10-20 17:16

GMT+8, 2024-4-26 00:04