1. 简介 GooSeeker分词和情感分析工具分成两大模块 这两个模块都能为文本挖掘结果画各种图,例如,《GooSeeker分词、情感分析和文本分析平台简介》一文列举了一些典型的图。在线基础模块的图上的文字只能显示微软雅黑,但是,扩展模块可以设置成宋体或者雅黑。如果写论文要求必须使用宋体,那么就可以安装分词扩展模块。下面讲解怎样设置字体。 2. 支持字体选择功能的软件版本 GooSeeker分词扩展模块是要安装在数据管家软件上的,两个软件必须配套使用。数据管家从V15.4.0开始才支持在管理界面上设置图文上的字体。而配套的分词扩展模块是V8.0.0及其以上版本。如果不是这个配套版本,需要先升级数据管家,然后升级分词扩展模块。 下图显示怎样查看数据管家版本。如果版本低于V15.4.0,请下载最新数据管家软件,重新安装一遍就升级成了最新版本。 安装了最新版本数据管家以后,再次进入扩展模块界面,并进入某个文本挖掘功能,就会提示安装配套的扩展模块。加入集搜客QQ群,在群里下载最新的扩展模块软件,是一个zip文件。不要解压,按照界面提示安装扩展模块,按照过程中选中这个zip文件,数据管家软件会自动解压并做部署。 3. 选择字体 在数据管家的设置界面上,增加了一个专门的分词扩展模块的设置界面。在这个界面上,可以修改数据库存储路径,以便把扩展模块程序和数据放在D盘上,参看《将文本聚类和LDA分析模块安装在数据盘上的方法》。还有一个设置项:图表字体,就是用来指定字体的。 【注意】设置字体以后,如果先前有打开的扩展模块页面,比如,已打开了LDA页面,那么,必须重新打开(或者刷新)这个页面,才能使用新设置。 【注意】有些图是即时生成的,比如,词云图、共词关系图,而另一些图是文本挖掘的计算结果。如果是后者,重新设置了字体以后,要重新计算才能生效。例如,LDA计算得到的Top20特征词分布图就是由分词扩展模块计算得到的。如下图 4. 选择宋体和雅黑的效果对比 4.1 词云图对比 词云图是即时生成的,在配置界面上重新设置字体以后,在选词结果界面上点击“词云图”按钮,就能看到用所选字体显示的词云图。如下两图是宋体和雅黑体的对比 4.2 LDA的Top20特征词分布图 LDA的Top20特征词分布图是LDA模型计算的结果,在配置界面上重新设置字体以后,要重新启动一次LDA计算才能用上新设置的字体。如下两图是宋体和雅黑体的对比 |