网络爬虫软件产品技术动态和资讯 - 集搜客GooSeeker网络爬虫

今天分享给大家的这篇研究范文以社交媒体新浪微博为例，通过数据采集、数据处理、数据分析（情感分析、K-均值聚类算法）的处理流程，探究新型冠状病毒肺炎（COVID-19）流行期间复工复学状态下的民众情绪,为心理疏导 ...

2021-8-30 10:15

什么是依存句法分析? 能不能在python中做依存句法分析方面的实验呢？本Jupyter Notebook将回答这些问题

2021-8-27 17:36

以社会化问答平台“知乎”为例,通过K-means聚类算法和LDA主题模型挖掘“知乎”平台下心理健康话题中的公众心理健康信息需求提问数据，并对这些数据进行分析和研究，探究新冠肺炎疫情期间公众心理健康信息需求特点及 ...

2021-8-27 11:23

Python自然语言处理库NLTK下的Collocations模块，提供了PMI计算的方法。Collocations中有两个类BigramCollocationFinder和TrigramCollocationFinder分别可以识别2词短语和3词短语 ...

2021-8-25 08:58

今天分享的这篇研究论文范例，筛选了武汉市出台的48份科技金融促进科技创新的政策文件，基于政策工具和创新阶段两个维度，运用量化分析方法，研究武汉市科技金融促进科技创新政策的偏好以及政策工具选择的合理性和创 ...

2021-8-24 17:32

使用NLTK的所有特性会遇到安装的麻烦。此前，我们发布的Jupyter Notebook也没有遇到什么问题，因为以前只用到了mltk的几个功能函数，仅仅做计算，没有使用nltk-data。如果要做一些基于机器学习数据的计算，就会有麻 ...

2021-8-24 11:12

今天分享给大家的是一篇2021年发表在外文期刊(Medicine)上的一篇范文，该文作者使用GooSeeker网络爬虫软件收集了24108篇有关牙痛的微博博文和帖子，分成了4大类，10个子类，分类统计，并按类别进行统计分析。标题：I ...

2021-8-23 09:31

1，背景说明在上一篇《Jupyter Notebook使用Python做TextRank关键词提取测试》中，我们手工构造出来词数组做实验，实验了TextRank关键词提取算法，最后输出显示提取到的前10个关键词和权重。但是，手工构造数组只能 ...

2021-8-20 10:58

为了解决科技政策领域词表构建的问题，本文提出一种基于依存句法分析的科技政策文本关键词抽取算法。在此基础上，提出文本主题词指数来构建文本主题词，利用同义词识别算法及百科知识发现和确定词与词的同义关系，采 ...

2021-8-19 11:12

TextRank算法是由网页重要性排序算法PageRank算法迁移而来的，PageRank算法根据互联网页面之间的链接关系计算每个页面的重要性。PageRank算法的使用方法，可以参考前几天我们发布的一篇在Jupyter Notebook下做PageRa ...

2021-8-18 10:36

资讯版块新发布的一篇论文范例《基于科技政策文本的程度词典构建研究》，该研究的作者立足科技政策的功能定位和用语特征，提出程度词的概念。兼顾数量和语义构建程度词典，包括依据专家知识选取种子词，利用 PMI算法 ...

2021-8-18 09:54

今天分享的这篇研究论文范例，尝试利用词典法辨识和量化我国科技政策文本用语中蕴含的决策者态度及其强弱程度，解决现有中文政策文本研究忽视词语语义强度的问题。立足科技政策的功能定位和用语特征，提出程度词的概 ...

2021-8-17 15:39

1，本Notebook介绍此前介绍了一篇论文范例《基于LDA模型的新冠疫情微博用户主题聚类图谱及主题传播路径研究》，论文提到了使用PageRank做为辅助工具来做确定各个网络社群的意见领袖。PageRank算法到底是怎样的，今 ...

2021-8-16 11:22

本研究论文范例获取了133947条2018年长春长生疫苗事件相关微博数据，并基于危机传播四阶段理论对该事件各生命周期阶段的微博数据提取微博文本的特征词，通过word2vec模型和K-means聚类算法提取突发事件各生命周期微 ...

2021-8-13 16:48

1，本Notebook实验背景前几天发布的论文范例研究：《基于最小二乘法的突发事件网络舆情演化规律研究》 ,使用信息提取工具包GooSeeker，挖掘突发事件的网媒报道数据，获得突发事件网络舆情的散点图。利用基于最小二乘 ...

2021-8-13 16:08

资讯