本帖最后由 王建国 于 2020-8-7 14:11 编辑

在已经确定了所要研究的实质性问题、相关的理论、前人的研究,一级待分类的文本后,就需要创建编码方案了。
举报 使用道具
| 回复

共 5 个关于本帖的回复 最后回复于 2020-8-10 09:57

王建国 高级会员 发表于 2020-8-7 11:48:22 | 显示全部楼层
创建编码的步骤如下:
1,定义记录单位。界定待分类文本的基本单位是内容分析中最基本,也是最重要的决定之一。有六种常用的记录单位:单词、词义、句子、主体、段落、全文。
2,定义类目。在创建类目定义时,必须做两个基本决定,第一个决定是类目之间是否需要互斥。大多数统计方法都要求变量之间互补混淆,如果记录单元可以同时归入两个或更多个类目,并且这两个类目(变量)又都包含在同一个统计分析中,那么可能由于违背统计分析的基本假设,从而导致可以的分析结果。
第二个决定设计类目范围的广狭。有些类目因语言而受到限制。例如,如果将一个表示“自称”的类目定义为“第一人称单数代词”,那么这个类目就只包含几个词或条目。如果一个类目被定义为“经济事务”,那么它会有许多条目。然而可以根据需要,采用更为狭窄的或特定的类目定义,如通货膨胀、税收、预算、贸易、农业等等。

举报 使用道具
王建国 高级会员 发表于 2020-8-7 11:54:44 | 显示全部楼层
3,对文本样本进行测试编码。测试不仅可以揭示编码规则中模糊不清之处,还望望能对分类方案的修订剔除洞见。

4,评估准确性或信度。此处的“准确性”是指文本被电脑正确编码的程度,而不是之前讨论的信度的一种类型。如果采用人工编码的方式,信度应予以实现评估,然后解决编码员之间的分歧。

5,修订编码规则。如果信度过低,或者发现电脑程序有错误,那么必须修订编码规则或修改软件。

举报 使用道具
王建国 高级会员 发表于 2020-8-7 11:59:22 | 显示全部楼层
6,返回步骤3,。这种循环将一直持续到编码员之间达到足够的信度或电脑程序正确运作为止。

7,对所有文本编码。当达到很高的编码员信度或电脑程序正确运行时,就可以用这套编码规则为所有文本编码。

8,评估达到的信度或准确性。文本人工分类完成后,还应该对编码员信度进行评估。千万不要以文本样本的编码信度,推定全部文本的编码信度。此外,编码员对编码规则的理解也可能随着编码进程发生微妙的变化,导致更严重的信度问题。
如果编码工作由电脑进行,则应该咨询检测电脑输出结果,以确保编码规则被正确应用。
举报 使用道具
Fuller 管理员 发表于 2020-8-8 09:26:14 | 显示全部楼层
王建国 发表于 2020-8-7 11:48
创建编码的步骤如下:
1,定义记录单位。界定待分类文本的基本单位是内容分析中最基本,也是最重要的决定之 ...

你说的编码单位,“主体”应该是错字,应该是“主题”
举报 使用道具
Fuller 管理员 发表于 2020-8-10 09:57:20 | 显示全部楼层
关于类目构建,这里有一个比较好的讨论: https://www.gooseeker.com/doc/thread-17062-1-1.html
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-29 08:48