本帖最后由 wangyong 于 2020-9-3 10:57 编辑

1,简单概率抽样简单概率抽抽样是指抽样母体的每个体被选中的机会均等。进行概率抽样的前提是必须有十分明确清晰的边界和每个个体的完整讯息。

这里有一个重复抽样和非重复抽样的问题。重复抽样就是把抽中的个体重新加入母体抽样,非重复抽样就是排除被抽出个体的再次“参选”资格。非重复抽样的结果是加大了未被抽中的个体被抽中的概率。

例如,罐子里有50个球,需要抽出5个,每次抽1个。根据概率理论,每个球被抽中的均等概率应该是1/50。如果不把抽中的球放回,那么第2个球被抽中的概率就成了1/49而非1/50,第5个球被抽中的概率则成了1/45了。也许你觉得没必要较这个真,觉得重复和不重复关系不是太大。有时候是,有时候却未必。比方说10个人中,要拉出去5个打板子,如果抽了4次都不是你,打的是别的倒霉鬼的屁股,要抽第5次的时候,你面临重复抽样和非重复抽样两种选择。如果重复抽样,那些已经被打的人还需要再次被抽,你被抽中拔板子的概率是1/0如果非重复抽样,你的被抽中的概本为1/6。即使你是个数学不好的人,你也会赞成重复抽样的办法。


举报 使用道具
| 回复

共 2 个关于本帖的回复 最后回复于 2020-9-3 11:14

沙发
wangyong 版主 发表于 2020-9-3 10:57:16 | 只看该作者
2,分层抽样

分层抽样是把总体样本按照儿种特征分为多层次的子类群。

从每个层中随机抽取一个样本, 然后合成最后的样本。由于总体成分复杂,某个个体群比例过大或过小,简单概率抽样容易产生误差,通过分层的办法可以修正或者增强样本的代表性。比如,你需要样本中包含使用少数民族语言的媒体,如果通过简单概率抽样,就极有可能选取的都是汉语媒体。通过分层抽样的办法,就可以有针对性地解决这个问题。这种抽样办法在内容分析中应用很广,我们将在后面详细交代。

举报 使用道具
板凳
王建国 高级会员 发表于 2020-9-3 11:14:02 | 只看该作者
3,系统抽样
系统抽样也叫等臣抽样,即按照一定的间隔从总体样本中抽出一定数目的个体。首先需要知道总体样本的数目,并且将这些样本顺序排列,然后根据出要推取的个数计算出抽样距离,假设总体样本的数目是N,所需样本的数目是n,那么抽样距离就是K=N/n。


应该注意的是,第一个数字必须随机。比如在总量是1000的总体样本中,需要抽出100个个体做样本,那么抽样的距离就是10,如果通过简单概率抽样,抽出的第1个个体编号位置是5,那么第2个就应该是15,然后是25,以此类推,直到抽到100个。

需要指出的是,系统抽样是以随机排列为前提的,这种排列不能出现任何的规律或者偏差,否则,就可能会产生“共振”现象。假设中国篮协要组建由12人组成的国家篮球队,办法是让联赛的前12名的队(假定各出5名主力)按照球队和运动员身高列队,然后隔5选1,那结果可能是每个队伍中最矮的都到了国家队。这个问题在媒体样本中也比较突出,比如,我们从《中国青年报》的报道中,隔6选1的话,那就可能都选到了一周的某天,比如周日。而一般周日版的软性新闻和娱乐内容的比重很大,很难反映《中国青年报》的报道特征。

举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-27 09:43