在GooSeeker分词工具界面上,我按照界面要求创建了excel表,含有表头。导入了2273条数据,导入成功以后,在界面上显示出来2274条数据。我导出了分词效果表,在excel中看也是2274条数据。为什么会多一条
举报 使用道具
| 回复

共 4 个关于本帖的回复 最后回复于 2023-12-19 10:58

Fuller 管理员 发表于 2023-12-19 10:49:22 | 显示全部楼层
一定要确保表头的每个字段名字跟要求的名字完全一致,否则会把表头和每个单元格都当成一条正文,那么,得到正文条数一定会增加。


本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
xinzhishengchanli 新手上路 发表于 2023-12-19 10:50:01 | 显示全部楼层
我导入的excel表肯定表头没错,这点我确信
举报 使用道具
Fuller 管理员 发表于 2023-12-19 10:56:26 | 显示全部楼层
你导入的数据是否有文本很长的单元格?一个单元格不要超过1万个字。另外,如果你导入的数据有长有段,本身就失去了相互对比的意义。比如,假设有一个1万字的文章,那么就这一个文本可能包含了你所选的大部分词,当生成共现词矩阵和做社交网络图的时候,你会发现在这个文章上,所有词都共现了,共现分析一定会受到影响;在情感分析那里也会有很大影响,文章太长,有正面的句子也有负面的句子,两两抵消,就干扰了情感倾向分析。所以,最好预处理一下,比如,手工切分成段落,当成多条文本进行分析。

如果文本很长,集搜客分词软件会自动做切分,在1万字左右切分,所以,不要超过1万字,否则的话,切分是自动的不受控的。
下面这个截图就是2号文本被切成了4段



本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
xinzhishengchanli 新手上路 发表于 2023-12-19 10:58:52 | 显示全部楼层
明白了,确实是文本太长被切开了
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 利用AI阅读和分析文本:扣子COZE记录用户反
  • 在网页片段内直观标注——以B站评论采集为
  • 利用AI阅读和分析文本:使用COZE建设游记文
  • 使用AI工具Kimi生成python代码为文本分析结
  • 苹果mac电脑安装集搜客网络爬虫软件失败的

热门用户

GMT+8, 2024-10-7 01:26