快捷导航

资讯

如何找到合适的连续动作组合
如何找到合适的连续动作组合
设置连续动作就是为了模拟人在浏览网页时的各种操作,从而加载出想要的网页信息,最后再进行采集,所以,总体上可以分为两大操做步骤,第一步是模拟人浏览网页的操作,通过在规则里设置连续动作来实现;第二步是采集 ...

2017-1-6 10:01

连续动作:滚屏采集瀑布流网页—以头条新闻为例
连续动作:滚屏采集瀑布流网页—以头条新闻为例
常见的网页大多数在页面下方会有翻页的按钮,比如“下一页”、“加载更多”,这类网页设置翻页就可以搞定,但是瀑布流网页没有这些按钮,而是随着鼠标滚动会不停的加载更多内容,这种很长很长的没有翻页按钮的网页就 ...

2017-1-4 11:44

连续动作:自动选择下拉菜单采集数据—以知网为例
连续动作:自动选择下拉菜单采集数据—以知网为例
一、操作步骤 用中国知网的期刊为例,展示连续动作中选择动作和爬虫路线中翻页的组合。本次教程要实现的是先检索2016年发表的期刊,再对检索结果进行采集,流程如下图所示: 为了实现这个,需要建立两级规则,第一级 ...

2017-1-3 18:13

连续动作:自动搜索关键词采集信息—以京东为例
连续动作:自动搜索关键词采集信息—以京东为例
一、操作步骤 如果网页上有搜索框,并且搜索结果页面没有独立网址,想要采集搜索结果,直接做规则是采集不到的,要先做连续动作(输入+点击)来实现自动输入关键词并搜索,然后再采集数据。下面用京东搜索为例,演示 ...

2016-12-30 12:09

连续动作概念:掌握JS动态网页信息采集
连续动作概念:掌握JS动态网页信息采集
下面会从连续动作的适用范围、动作类型、如何使用连续动作、连续动作的循环执行说明等四个方面,全面地介绍连续动作的知识点。 一、连续动作的适用范围 越来越多的网页使用了JS动态技术,即网页信息不是立马显示出来 ...

2016-12-29 15:38

新浪微博数据采集攻略
新浪微博数据采集攻略
新浪微博页面的组合采集攻略如下(绿框是页面名称,橙色字体是采集结果表中的网址字段): 1、从“微博关键词搜索结果”展开采集更多页面信息 方法:从“微博关键词搜索结果”的数据表中,把“博主主页”这列的网 ...

2016-12-28 16:45

推荐一款简单易用的在线中文分词工具
推荐一款简单易用的在线中文分词工具
最近要对微博和京东的手机评论分别做分析,类似语义研究,需要对文本数据进行分词,再找出有用的词语,进行标签分类,后面还有一堆的处理步骤,此处省略一万字,但是,单单前面分词这里就弄得头大,原因是本人小白不 ...

2016-11-23 11:06

集搜客文本分词标注工具使用指南5-如何使用打标结果
集搜客文本分词标注工具使用指南5-如何使用打标结果
六、如何使用打标结果 用文本分词标注工具可以输出下面四个表,可能对于一些人来说,这样的数据会比较陌生以及不知如何做计算,下面就说说一些思路,但实际的用途不限于这些。 1、标签词库 统计频数,计算权重,进行 ...

2016-11-15 16:24

集搜客文本分词标注工具使用指南4-下载打标结果
集搜客文本分词标注工具使用指南4-下载打标结果
四、下载、查看打标结果 使用文本分词标注工具可以输出四个excel表,无论第2或第3步是否完成,都可以去下载已打标的数据,这些都是语义分析和文本分类的基础数据。 1、标签词库:对应第2步的操作结果; 2、情感词库 ...

2016-11-15 16:15

集搜客文本分词标注工具使用指南3-识别情感词
集搜客文本分词标注工具使用指南3-识别情感词
三、识别标签词所在句子中的情感词 用文本分词标注工具筛选完标签词后,可以继续第3步操作,目的是识别出名词所在句子中的形容词,并判断出具有的情感色彩(好中差),大家可以根据需要来选择是否进行。 在“筛选结 ...

2016-11-15 15:48

集搜客文本分词标注工具使用指南2-筛选标签词
集搜客文本分词标注工具使用指南2-筛选标签词
二、根据研究目的筛选标签词 数据导入成功后,进入第2步筛选标签词,也就是文本分类中的特征选择和特征抽取的步骤。在这里,我们会看到按照词频降序排列的分词结果,而我们要做的是逐屏浏览,选出要研究的词语。 很 ...

2016-11-15 15:41

集搜客文本分词标注工具使用指南1-导入数据
集搜客文本分词标注工具使用指南1-导入数据
下面以京东的手机评论为例介绍集搜客文本分词标注工具的用法。 一. 建立打标任务、导入只有一列数据的excel表 点击“新建任务”,就开始第1步导入数据,在这里,要自定义任务名称,导入只有一列数据的excel表,注意e ...

2016-11-15 15:30

批量修改下载图片名称
批量修改下载图片名称
利用集搜客所下载的图片名称是根据程序自动命名的,有时候网站有图片名称,我们也把图片采集下来,希望能批量对所下载图片进行重命名。下面教怎么批量修改图片名称。 首先把采集结果xml文件转换成excel,教程见《xml ...

2016-11-4 16:36

采集网页html源码
采集网页html源码
一、操作步骤 对于学习网页设计的人来说,有时候遇到了自己很喜欢的网页,却得不到它的html代码,或者得到的代码不完整。下面用网易新闻采集作为案例,教大家采集html源码,具体操作步骤如下: 二、案例规则+操作步 ...

2016-10-28 11:53

数据规则怎么看
数据规则怎么看
数据规则就是随着标注和映射操作立刻生成的XSLT程序,它是爬虫采集网页数据的依据,主要涉及到xpath,大家在掌握html、xml、xpath的基础上,就能很好地理解XSLT程序。查看方法是点击“测试”-“数据规则”,如下图。 ...

2016-10-28 10:57

集搜客GooSeeker网络爬虫 ( 粤ICP备11065265号-2 )

GMT+8, 2017-11-20 11:48