之前有个帖子:想用爬虫软件爬取微博话题-博士当辅导员是屈才吗, 并且做情感分析

记录了网页抓取工具采集到的数据,导入到集搜客文本分词和情感分析软件

生成的数据表中有个词频统计表。我就用Jupyter Notebook的pandas来读取这个词频统计表, 然后做一些查询统计练习,以跟帖的形式记录下来。

QQ截图20210303102537.png

举报 使用道具
| 回复

共 11 个关于本帖的回复 最后回复于 2021-3-3 17:29

马涌河畔 金牌会员 发表于 2021-3-3 10:45:07 | 显示全部楼层
原文件是这个: 博士当辅导员_词频表_20210303091849990.zip (40.13 KB, 下载次数: 12)
举报 使用道具
马涌河畔 金牌会员 发表于 2021-3-3 11:12:14 | 显示全部楼层
本帖最后由 马涌河畔 于 2021-3-3 17:04 编辑

先看一下有几行几列, 查看下前5行数据和后5行数据:
  1. #查询有几行几列
  2. df.shape

  3. #显示前5行
  4. df.head(5)

  5. #显示后5行
  6. df.tail(5)
复制代码
QQ截图20210303110901.png



举报 使用道具
马涌河畔 金牌会员 发表于 2021-3-3 11:33:27 | 显示全部楼层
  1. #查询词频数大于80的记录
  2. df.loc[df['词频'] > 80]
复制代码
QQ截图20210303113308.png


举报 使用道具
马涌河畔 金牌会员 发表于 2021-3-3 11:49:20 | 显示全部楼层
按某一列的值group by之后做统计
  1. #按词性分别统计对应的标签词个数
  2. df.groupby(["词性"], as_index=False)['标签词'].count()
复制代码
QQ截图20210303114807.png


举报 使用道具
Fuller 管理员 发表于 2021-3-3 15:34:30 | 显示全部楼层
马涌河畔 发表于 2021-3-3 11:49
按某一列的值group by之后做统计

每一种表的数据探索的notebook能不能共享一下?
举报 使用道具
马涌河畔 金牌会员 发表于 2021-3-3 15:40:51 | 显示全部楼层
Fuller 发表于 2021-3-3 15:34
每一种表的数据探索的notebook能不能共享一下?

这是上面实验的notebook文件: 分词软件导出表分析_词频统计表.ipynb.zip (2.02 KB, 下载次数: 7)
举报 使用道具
王建国 高级会员 发表于 2021-3-3 16:18:46 | 显示全部楼层
QQ截图20210303161809.png
要放在哪个目录下才能将数据导入呢?
举报 使用道具
马涌河畔 金牌会员 发表于 2021-3-3 16:43:47 | 显示全部楼层
王建国 发表于 2021-3-3 16:18
要放在哪个目录下才能将数据导入呢?

上面那个.ipynb里,是读取当前目录下的excel文件(也就是Jupyter notebook定义的根目录下),不过这样不好管理, 我准备按这篇文档的目录结构做修改:《Jupyter Notebook在机器学习领域的项目目录结构规划》


举报 使用道具
王建国 高级会员 发表于 2021-3-3 16:48:05 | 显示全部楼层
本帖最后由 王建国 于 2021-3-3 16:54 编辑
马涌河畔 发表于 2021-3-3 16:43
上面那个.ipynb里,是读取当前目录下的excel文件(也就是Jupyter notebook定义的根目录下),不过这样不好 ...
  1. import pandas as pd
  2. data_path="D:/08浏览器下载/博士当辅导员_词频表_20210303091849990/博士当辅导员_词频表_20210303091849990.xlsx"
  3. df = pd.read_excel(data_path)
  4. print(df)
复制代码
我用这段代码导入了
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-28 20:25