我看到这篇文章《二十世纪来的道德观变迁:来自语料库的证据》,就像开头说的

提及“道德”,常常带了几分天经地义的意思:从来如此,尽皆如此,如此,最好如此。虽然如此,随着“向微观深处去”的量化历史研究渐渐增加,类似“未必如此”的结论,也在相应涌现。例如,通过对长时段语料的量化分析,Wheeler、McGrath和Haslam阐明:语料中道德词频的整体趋势,在二十世纪有大幅变化;不同类型的道德观念,亦有此消彼长。

还有结论:

总之,原文在“长时段语料分析”、“量化的文化史”和“量化的心理史”等方兴未艾的方向上有所推进,对长时段道德观念的观察结果,也已为后续研究所援用

那么集搜客分词和文本分析软件是否能做这种量化历史研究?是否可以用来建设语料库?


举报 使用道具
| 回复

共 3 个关于本帖的回复 最后回复于 2020-10-2 10:12

沙发
Fuller 管理员 发表于 2020-10-2 10:04:33 | 只看该作者
内容分析的分析单位有不同粒度,“词”这一级是最细的粒度,还有大粒度的,比如,短语,句子,段落,整篇文章等等。我看了这篇文章,使用了词这一级分析单位。这就很适合使用集搜客文本分析软件做这个工作。

主要的工作无非是在自动分词的基础上,筛选出来特征词或者叫中心词,也筛选出来同义词,然后合并同义词,然后根据特征词代表的语义进行分类。



这是集搜客分词工具的选词界面,是按照词频进行排序的,所以重点选择排在前面的,一屏中的词,如果是需要的特征词,就勾上,点击“确定”就把他们记录了下来,同时翻页到下一屏。如果只要前N个词,在选词结果那里看够不够。如果要所有的都选一遍,那么在筛选词语这里一页一页选择和确定,直到没有词了,就选完了。

最后导出多种excel表格,在excel表格中进行统计分析
举报 使用道具
板凳
发誓学好内容分析 金牌会员 发表于 2020-10-2 10:04:58 | 只看该作者
Fuller 发表于 2020-10-2 10:04
内容分析的分析单位有不同粒度,“词”这一级是最细的粒度,还有大粒度的,比如,短语,句子,段落,整篇文 ...

手工选词岂不很花时间?
举报 使用道具
地板
Fuller 管理员 发表于 2020-10-2 10:12:05 | 只看该作者
发誓学好内容分析 发表于 2020-10-2 10:04
手工选词岂不很花时间?

如果能实现精确的自动选词,那么连统计分析都不用人工做了,选词是最麻烦的,要理解语义,所以,在内容分析领域,一定要手工选词和归类,才够精确,不遗漏。

其实,集搜客分词工具考虑了时间花费问题。

首先,常用词语就是几万个,你要分析的预料无论有多少篇文章,词数增加不大,所以,手工选择并不是大问题,一屏45个词,1万个词的话才223屏,很快可以选完。

其次,可以按照词性分开选择,先选名词,因为名词含有更加丰富的语义。其次选择动词和形容词,下图这样根据需要选择。


举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-24 10:30