GooSeeker 产品资源教程视频教程使用交流资讯

开启辅助访问切换风格

快捷导航

集搜客GooSeeker网络爬虫 › 官方文档 ›资讯 › 查看内容

基于语义网络的研究兴趣相似性度量方法

2021-9-7 16:00| 发布者: Fuller| 查看: 3401| 评论: 0

摘要: 今天分享给大家的研究论文范文，收集了《中文社会科学引文索引》(CSSCI)上的期刊论文共2791篇，涉及作者2104位，关键词4725个。为便于作者兴趣矩阵相似性的计算, 本文针对各核心作者选取相同数量的关键词进行word2ve ...

今天分享给大家的研究论文范文，收集了《中文社会科学引文索引》(CSSCI)上的期刊论文共2791篇，涉及作者2104位，关键词4725个。为便于作者兴趣矩阵相似性的计算, 本文针对各核心作者选取相同数量的关键词进行word2vec 建模学习。另外, 在选取关键词表示作者研究兴趣时, 删除对分析作者研究兴趣相似性以及分析领域热点较低贡献的概括性关键词, 如电子政务、电子政府等。通过引入word2vec模型对作者关键词进行词向量表示，将关键词表示成语义级别的低维实值分布；计算关键词之间的语义相关度并构造关键词语义网络，采用JS距离对构建的作者研究兴趣矩阵进行相似性度量。

我们之前推荐的GooSeeker微博数据采集工具箱和文本分词和情感分析软件，很多做研究写论文的同学都用的很熟练了，有不少同学经常就使用过程中的体验在技术交流群里和我们讨论，也会提出很好的建议。这些建议我们经过评估采纳后，会在更新软件版本时添加进去。

另外我们也提供了知网快捷采集工具，输入关键词后启动采集，就可以收集知网文献资料，同学们有需要可以试试。

1，本范例相关信息简介

标题：基于语义网络的研究兴趣相似性度量方法

关键词：网络；神经网络语言模型；语义相似度;研究兴趣矩阵；

作者：

巴志超1,2 李纲1 朱世伟2

1. 武汉大学信息管理学院

2. 山东省科学院情报研究所

基金资助：

国家自然科学基金项目“科研团队动态演化规律研究”（项目编号:71273196）；

山东省重点研发计划项目“可定制大数据知识服务平台关键技术研究及应用”（项目编号:2015GGX101037）；

山东省科学院青年基金项目“基于本体标注的科技文档挖掘方法关键技术研究”（项目编号:2013QN036）的研究成果之一；

摘要：

【目的】为准确识别研究内容相似但使用不同关键词的作者关系，解决传统共现分析方法缺乏语义关联的问题，提出一种基于关键词语义网络构建的作者研究兴趣相似性度量方法。

【方法】通过引入word2vec模型对作者关键词进行词向量表示，将关键词表示成语义级别的低维实值分布；计算关键词之间的语义相关度并构造关键词语义网络，采用JS距离对构建的作者研究兴趣矩阵进行相似性度量。

【结果】该方法能计算出共现及非共现词对的相关性，有效地挖掘出作者之间的潜在合作关系。

【局限】训练语料的数量和准确性有待进一步提高,提出的度量方法仅考虑两个作者之间的潜在合作关系。

【结论】研究结果对改进基于传统的共现分析方法度量作者合作关系具有重要的参考价值。

2，本范文相关知识点和研究方法

2.1 什么是word2vec模型

下面的解释摘录自csdn文章《大白话讲解word2vec到底在做些什么》:

word2vec也叫word embeddings，中文名“词向量”，作用就是将自然语言中的字词转为计算机可以理解的稠密向量（Dense Vector）。

word2vec主要分为CBOW（Continuous Bag of Words）和Skip-Gram两种模式。

举个例子。

对同样一个句子：Hangzhou is a nice city。我们要构造一个语境与目标词汇的映射关系，其实就是input与label的关系。

这里假设滑窗尺寸为1，那么分别看看两种方法构造映射关系的方法有什么不同

1. CBOW可以制造的映射关系为：[Hangzhou,a]—>is，[is,nice]—>a，[a,city]—>nice

可以这样看：第一个目标词是is，它前一个和后一个词构成一个语境是[Hangzhou,a]；窗口往后滑动1，到了a，它前一个和后一个词构成一个语境是[is,nice]，依次往后滑动。

2. Skip-Gram可以制造的映射关系为(is,Hangzhou)，(is,a)，(a,is)， (a,nice)，(nice,a)，(nice,city)

可以这样看：同样第一个目标词是is，分别与前一个词和后一个词构成映射关系是(is,Hangzhou)和(is,a)；然后往后滑动1，就是a，又构成(a,is)和(a,nice)。

有结论说：CBOW是从原始语句推测目标字词；而Skip-Gram正好相反，是从目标字词推测出原始语句。CBOW对小型数据库比较合适，而Skip-Gram在大型语料中表现更好。

到底是什么原因或者背后的原理是什么，读者自己去搜索研究一下。

2.2 关键词提取

本范例作者通过建模得到的关键词集构建作者研究兴趣表示模型。

关于关键词和主题的提取，我们之前在Jupyter Notebook下做过多项实验，可以参考：

1. Jupyter Notebook使用Python做TextRank关键词提取测试

2. 新闻内容分词后在Jupyter Notebook中使用TF-IDF算法提取关键词

3. 微博内容分词并手工选词后用JupyterNotebook做LDA主题分析

4. 分析电商评论发现消费者话题-LDA主题分析篇(Jupyter Notebook)

3，后续的学习实践

1. 在Jupyter Notebook中使用Python做Word2Vec实验

2. 对比探索一下这些不同的提取关键词和主题的方法有什么异同，各自适合什么场景

上一篇：Jupyter Notebook使用Python计算特征向量中心度(Eigenvector Centrality)下一篇：特征向量中心性计算中的迭代是怎么回事？

最新评论

相关分类

下级分类

热门排行

旧版: 网站; 社区

支持: 常见问题; 视频教程; 速查手册; 指导书

关于: 公司简介; 联系方式; 友情链接

关注: 新浪微博; 官方微信

4008-770-662
仅收市话费，周一至周日9:00-18:00
24小时在线客服

GMT+8, 2025-7-12 14:56