Fuller 管理员 发表于 2021-8-3 10:20:38 | 显示全部楼层
10,磁盘文件和目录管理

电商图片下载后怎样使用Jupyter Notebook合并目录》:比如,下载下来的图片,按照不同的目标网址放在不同的磁盘目录上,如果要汇总在一起,可以参考这个notebook
举报 使用道具
Fuller 管理员 发表于 2021-8-3 10:28:58 | 显示全部楼层
11,文本挖掘算法
点击进入下面的文章中,可下载Jupyter Notebook文件

Jupyter Notebook使用sklearn的TF-IDF算法计算关键词权重》:经常有同学问:GooSeeker文本分词和情感分析软件中的自动抽取关键词是怎么实现的?其实有很多成熟的算法都可以做这个事情,比如,本文介绍的TF-IDF算法,这是一个最常用的算法,虽然集搜客分词和文本分析的算法不完全是tf-idf,而是做了一些微调。

新闻内容分词后在Jupyter Notebook中使用TF-IDF算法提取关键词》:用实际数据将tf-idf与GooSeeker文本分词和情感分析软件的关键词抽取结果做了对比

在Jupyter Notebook中用Python做PageRank算法计算》:介绍了两种PageRank算法,可用于社交网络分析

Jupyter Notebook使用Python做TextRank关键词提取测试》:TextRank算法的最大优点:不需要统计整个语料库,只需要针对单篇文章进行计算即可提取关键词

科技政策文本分词后在Jupyter Notebook中用TextRank做关键词提取》:上一篇用的是手工构造的实验数据,这一篇是实际场景下,使用GooSeeker分词软件生成的分词效果表,对词语做TextRank分析。

Jupyter Notebook使用Python做PMI点互信息计算》:讲了用点互信息计算2个词之间或者3个词之间是否有相邻关系,如果出现相邻的概率很高,很可能应该把他们当成一个短语对待。

Jupyter Notebook使用Python做中英文自然语言依存句法分析实验》:概要讲解了什么是依存句法,并以spyCy作为依存句法处理程序包,用Python演示了依存句法分析
在Jupyter Notebook中使用spaCy可视化中英文依存句法分析结果》:演示了怎样用Spacy可视化显示依存句法分析结果

Jupyter Notebook使用gensim做Word2Vec计算》:讲解了gensim程序库中的word2vec函数的用法

Jupyter Notebook使用Gensim库做中文Word2Vec模型计算》:讲解了在实际数据场景下,怎样使用word2vec算法为GooSeeker分词软件生成的结果数据生成词向量。

在Jupyter Notebook中使用word2vec和k-means进行词聚类》:讲解了结合word2vec和k-means进行词聚类的处理过程
举报 使用道具
Fuller 管理员 发表于 2021-8-12 18:25:16 | 显示全部楼层
12,社会科学计算
点击进入下面的文章中,可下载Jupyter Notebook文件

JupyterNotebook做层次分析法(AHP)权重计算》:用python实现层次分析法计算和一致性检验,并用一个例子讲解使用方法

如何使用Jupyter Notebook做最小二乘法(Least Squares Method)计算》:讲解怎样利用Python的自小二乘法计算函数做多项式拟合

Jupyter Notebook使用Python做K-Means聚类分析》:演示了k-means算法的Python程序及其计算结果,并用可视化工具做了展示

机器学习库sklearn的K-Means聚类算法的使用方法》:使用sklearn的KMeans模型,只需几行Python就行了,不要像《Jupyter Notebook使用Python做K-Means聚类分析》那样写底层函数。

Jupyter Notebook使用Python做K近邻(KNN)算法实验》:演示了KNN算法的Python函数使用方法


社交媒体话题文本分词后用sklearn的kmeans算法做聚类分析》:用社交媒体上的真实数据,利用集搜客分词和情感分析软件生成的分词结果,展示聚类算法的使用方法
知乎话题文本分词并选词后用sklearn做kmeans聚类计算》:用社交媒体上的真实数据,利用集搜客分词和情感分析软件生成的分词结果,跟上一篇不同,还要在分词软件上手工选词,相当于是人工的特征工程,最后进行聚类计算,展示手工选词对效果的提升。

Gephi社会网络分析-Gephi插件的安装和使用》:重点讲解当官方源无法访问的时候,怎样使用镜像程序库源下载和安装需要的模块

学习使用apriori算法挖掘关联关系》:解释了关联关系和相关系数的区别,用简单案例演示了apriori算法的计算结果



举报 使用道具
15964002091 金牌会员 发表于 2021-8-29 10:22:55 | 显示全部楼层
Jupyter Notebook是用python运行吗
举报 使用道具
Fuller 管理员 发表于 2021-8-29 16:49:49 | 显示全部楼层
15964002091 发表于 2021-8-29 10:22
Jupyter Notebook是用python运行吗

对,用python
举报 使用道具
15964002091 金牌会员 发表于 2021-9-9 16:48:41 | 显示全部楼层
可以出一个将导出的关键词与评论进行匹配的模板吗?想统计每个关键词对应的评论
举报 使用道具
Fuller 管理员 发表于 2021-9-9 17:24:44 | 显示全部楼层
15964002091 发表于 2021-9-9 16:48
可以出一个将导出的关键词与评论进行匹配的模板吗?想统计每个关键词对应的评论 ...

你在GooSeeker分词和情感分析软件的哪个界面导出的关键词?是下面这个抽关键词界面吗?请告诉我具体需求,我安排人做一下notebook

下面这个界面上,橙色关键词是用算法自动抽出来的,蓝色打标词是手工选词以后得到的。打标词的对应关系可以直接导出来。自动抽取的关键词与文档之间的对应关系也可以导出来。你想要一种什么格式的对应关系?
抽关键词界面4.png
举报 使用道具
15964002091 金牌会员 发表于 2021-9-9 18:35:41 | 显示全部楼层
我之前试用的分词软件过期了,我没注意到这个功能。然后我就是想实现左边是抽取的关键词,右边是对应原始的断句。
举报 使用道具
Fuller 管理员 发表于 2021-9-10 10:33:14 | 显示全部楼层
15964002091 发表于 2021-9-9 18:35
我之前试用的分词软件过期了,我没注意到这个功能。然后我就是想实现左边是抽取的关键词,右边是对应原始的 ...

我建议你直接使用分词软件,如果要自己用python写程序,这个话题下一个跟帖,是第11组notebook,其中有textRank和TF-IDF两种可以抽取关键词的算法
举报 使用道具
Fuller 管理员 发表于 2021-9-26 15:51:54 | 显示全部楼层
13,大数据探索

在Jupyter Notebook中使用pyspark操作Spark DataFrame基本功能》:讲解怎样安装和使用pyspark

安装Jupyter Notebook并集成pyspark》:讲解了从安装Anaconda到安装pyspark
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-29 17:28