资讯

豆瓣电影的情感分析
豆瓣电影的情感分析
文本分析和文本挖掘方法和技术往往看起来复杂难懂,可以试试集搜客GooSeeke的工具,力求把使用门槛降到最低。在一个情感分析场景中,集搜客提供两个工具配合完成分析任务: 1,用集搜客爬虫做数据采集:解决数据来源 ...

2019-12-20 16:27

一本在线图书——社交网络分析介绍
一本在线图书——社交网络分析介绍
介绍一本在线阅读的图书《社交网络分析介绍》:This on-line textbook introduces many of the basics of formal approaches to the analysis of social networks. The text relies heavily on the work of Freeman, ...

2019-12-16 07:52

网络爬虫采集html片段时无法生成结果文件怎么办?
网络爬虫采集html片段时无法生成结果文件怎么办?
集搜客GooSeeker网络爬虫除了能把网页上的内容转换成结构化的表格以外,还能将整个html文档或者html中某个标签下的片段采集下来,放在XML格式的结果文件中。定义这样的规则相当简单。但是,在V9.0.5版本之前,有一个 ...

2019-12-5 17:51

网络爬虫占满了c盘怎么清理
网络爬虫占满了c盘怎么清理
用gooseeker网络爬虫软件采集数据,运行时间长了,硬盘会占用很多,数据量最大的主要是两类数据:下载到缓存区中的网页;将网页内容提取出来的XML结果文件。如果占用的空间是在c盘上,就对操作系统影响很大,所以, ...

2019-11-14 09:22

为什么采集速卖通用户评论翻页不了
为什么采集速卖通用户评论翻页不了
最近出现的速卖通用户评论翻页不了的问题就要求网络爬虫软件进行升级。为了解决这个问题,集搜客GooSeeker网络爬虫升级到了9.0.4版本。除了解决这个问题,界面上也做了优化:用模拟点击翻页 ... ... ... ...

2019-11-7 18:14

多级规则执行连续动作而输入动作不在第一级应该怎样设置? ...
多级规则执行连续动作而输入动作不在第一级应该怎样设置? ...
GooSeeker集搜客网络爬虫的连续动作类型中有一种连续输入动作,参看教程《自动搜索关键词采集信息》,可以像人一样自动输入搜索关键词采集搜索结果。对于旗舰版用户,还具有“连发弹仓”权限 ...

2019-11-4 18:51

特征工程入门介绍
特征工程入门介绍
特征工程是机器学习,甚至是深度学习中最为重要的一部分,数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。那特征工程到底是什么呢?顾名思义,其本质是一项工程活动,目的是最大限度地从原始数 ...

2019-10-18 09:43

NLP文本情感分析入门
NLP文本情感分析入门
自然语言处理NLP的一个应用就是情感分析Sentiment Analysis,它在社交内容的分析以及电商评论反馈分析中,都占有很高的分析价值,下面给大家整理了情感分析的入门框架。 1.分析目的 对文本的观点、喜好、情感倾向进 ...

2019-10-15 10:48

机器学习算法入门介绍
机器学习算法入门介绍
之前研究自然语言处理的知识脉络,发现随着数据爆炸和大数据挖掘处理的发展,现在不少自然语言处理项目面对的都是TB级的数据量,机器学习和深度学习就常被用到自然语言处理中,所以,要入门自然语言处理,就少不得要 ...

2019-10-14 10:22

中文分词入门和分词工具汇总攻略
中文分词入门和分词工具汇总攻略
最近在整理自然语言处理的相关知识图谱,关于中文分词这块,我们梳理了一些入门的知识点,并且整理汇总了分词工具、词云图工具,觉得有用的可以收藏一下。1.分词难点 1.1.有多种分词标准,不同的分词标准会对下游结 ...

2019-10-12 16:40

自然语言处理NLP的一般处理流程
自然语言处理NLP的一般处理流程
1.研究和应用领域 自动分词词性标注句法分析文本分类信息抽取文本生成语音识别和生成信息检索问答系统机器翻译情感分析自动摘要文字蕴含 2.研究难点 单词的边界难界定;词义的消歧;句法的模糊性;有瑕疵的或不规范 ...

2019-10-9 11:46

关于鸿蒙操作系统的知乎讨论热点分析
关于鸿蒙操作系统的知乎讨论热点分析
从华为的鸿蒙操作系统上线以来,就引发了不少热议,有赞美的,也有质疑的。为了全面地和量化地评估鸿蒙的舆论态势,我们就从知乎上采集了关于鸿蒙问题的回答,看看大家说了哪些东西,围绕鸿蒙这个概念形成了一种什么 ...

2019-9-23 10:06

采集知乎上关于华为鸿蒙的问题和回答
采集知乎上关于华为鸿蒙的问题和回答
知乎作为一个知识问答和分享的平台,每当有热点事件发生,上面都会有一些精辟言论,有助于我们快速了解事件的一些情况。我们想要研究华为鸿蒙发布以来的讨论热点,就选取从知乎上收集数据。 采集数据就用到了集搜客 ...

2019-9-16 18:40

分词和分类检索平台使用手册
分词和分类检索平台使用手册
在2019年8月,我们发布了第3版分词打标软件,增加了可以像搜索引擎那样检索和查看数据的分类检索功能模块,分词选词模块则做了一些优化,下面介绍了基本操作,希望大家能借助这个工具,发掘出数据的价值。1.新建任务 ...

2019-9-16 15:06

用爬虫采集机场出租车进场出场数据的公告
用爬虫采集机场出租车进场出场数据的公告
2019年全国大学生数学建模竞赛C题是关于机场中出租车司机决策模型的,要求用网络爬虫采集相关的数据。请大家使用GooSeeker集搜客网络爬虫的时候以学术研究为目的,适量适当合规使用 ... ... ...

2019-9-13 11:56

GMT+8, 2025-1-22 03:28