尽管一些研究以全部文档总体作为研究对象,但是大多数研究不会这么做。抽样主要是出于经济方面的考虑。对于内容分析而言,存在3中抽样总体。1,传播来源;
2,文档;
3,文档中的文本。
举报 使用道具
| 回复

共 1 个关于本帖的回复 最后回复于 2020-8-4 13:06

沙发
数据分析小白edu 初级会员 发表于 2020-8-4 13:06:38 | 只看该作者
本帖最后由 数据分析小白edu 于 2020-8-4 13:08 编辑

抽样方法的选择主要取决于抽样总体以及从文本进行推论的类型。

传播来源:在传播来源中,报纸、杂质和作者都可能被抽样。在互联网内容分析中通常会选择新闻和社交媒体,在集搜客的快捷采集中可以便捷的采集新闻数据。目前国内比较热门的社交媒体平台,例如新浪微博知乎B站都可以进行便捷采集。

文档:在确认所要研究的传播来源后,可以通过对文档进行抽样以减少待分析的数量。然后,为了避免得出有偏的或错误的结论,研究者必须顾及文档产生的背景条件。

文档中的文本:在研究的样本是某种固定格式的文章下,例如政府工作报告、总统就职演说等官方文件,都有一定的格式或组织形式,这类文本通常有例行的开场白和结束语,这类文本可以从抽样文本中剔除。
文档中的文档是在适应经济的情况下选择的分析类型。如果可能的话,整个文本都应该进行分析。这样就保留了作为分析单位的整个文本的语义连贯性。

要注意的是,句子不应作为抽样单位,即使取自同一个文件的句子也不行,因为分析离散的句子会破坏语义的练练关系,从而导致之后的验证和解释变得极其困难。
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • LDA主题分析模型到底是什么?
  • top2vec话题发现原理和使用方法
  • 将文本聚类和LDA分析模块安装在数据盘上的
  • GooSeeker分词软件的tf-idf算法和特征词选
  • 边表格式和矩阵格式的共词矩阵表有什么区别

热门用户

GMT+8, 2026-4-9 00:07