大数据的问题04：盖洛普抽样的成功——大小之争

2015-11-25 21:44| 发布者: Fuller| 查看: 9850| 评论: 0|原作者: 张玉宏|来自: 北京勺海市场研究公众号

摘要: 读了上一个故事《园中有金不在金——大数据的价值》才知道目前玩大数据的就像小蜜蜂，酿的蜜不足为题，产生的价值竟然主要是传粉。虽是无心插柳，总比白干强，先放一放吧，我们要探讨一个新问题：“大”数据一定胜过 ...

读了上一个故事《园中有金不在金——大数据的价值》才知道目前玩大数据的就像小蜜蜂，酿的蜜不足为题，产生的价值竟然主要是传粉。虽是无心插柳，总比白干强，先放一放吧，我们要探讨一个新问题：“大”数据一定胜过小抽样吗？

盖洛普抽样的成功——大小之争，“大”数据一定胜过小抽样吗？

1936年，民主党人艾尔弗雷德·兰登（Alfred Landon）与时任总统富兰克林·罗斯福（Franklin Roosevelt）竞选下届总统。《文学文摘》（The Literary Digest）这家颇有声望的杂志承担了选情预测的任务。之所以说它“颇有声望”，是因为《文学文摘》曾在1920年、1924年、1928年、1932年连续4届美国总统大选中，成功地预测总统宝座的归属。

1936年，《文学文摘》再次雄赳赳、气昂昂地照办老办法——民意调查，不同于前几次的调查，这次调查把范围拓展得更广。当时大家都相信，数据集合越大，预测结果越准确。《文学文摘》计划寄出1000万份调查问卷，覆盖当时四分之一的选民。最终该杂志在两个多月内收到了惊人的240万份回执，在统计完成以后，《文学文摘》宣布，艾尔弗雷德·兰登将会以55比41的优势，击败富兰克林·罗斯福赢得大选，另外4%的选民则会零散地投给第三候选人。

然而，真实的选举结果与《文学文摘》的预测大相径庭：罗斯福以61比37的压倒性优势获胜。让《文学文摘》脸上挂不住的是，新民意调查的开创者乔治·盖洛普（George Gallup），仅仅通过一场规模小得多的问卷——一个3000人的问卷调查，得出了准确得多的预测结果：罗斯福将稳操胜券。盖洛普的3000人“小”抽样，居然挑翻了《文学文摘》240万的“大”调查，实在让专家学者和社会大众跌破眼镜。

显然，盖洛普有他独到的办法，而从数据体积大小的角度来看，“大”并不能决定一切。民意调查是基于对投票人的大范围采样。这意味着调查者需要处理两个难题：样本误差和样本偏差。

在过去的200多年里，统计学家们总结出了在认知数据的过程中存在的种种陷阱（如样本偏差和样本误差）。如今数据的规模更大了，采集的成本也更低了，“大数据”中依然存在大量的“小数据”问题，大数据采集同样会犯小数据采集一样的统计偏差。我们不能掩耳盗铃，假装这些陷阱都已经被填平了，事实上，它们还都在，甚至问题更加突出。

盖洛普成功的法宝在于，科学地抽样，保证抽样的随机性，他没有盲目的扩大调查面积，而是根据选民的分别特征，根据职业、年龄、肤色等在3000人的比重，再确定电话访问、邮件访问和街头调查等各种方式所在比例。由于样本抽样得当，就可以做到“以小见大”、“一叶知秋”。

《文学文摘》的失败在于，取样存在严重偏差，它的调查对象主要锁定为它自己的订户。虽然《文学文摘》的问卷调查数量不少，但它的订户多集中在中上阶层，样本从一开始就是有偏差的（sample bias），因此，推断的结果不准，就不足为奇了。而且民主党人艾尔弗雷德·兰登的支持者，似乎更乐于寄回问卷结果，这使得调查的错误更进了一步。这两种偏差的结合，注定了《文学文摘》调查的失败。

我们可以类比一下《文学文摘》的调查模式，试想一样，如果在中国春运来临时，在火车上调查，问乘客是不是买到票了，即使你调查1000万人，这可是大数据啊，结论毫无意外地是都买到了，但这个结果无论如何都是不科学的，因为样本的选取是有偏的。

当然，采样也是有缺点的，如果采样没有满足随机性，即使百分之几的偏差，就可能丢失“黑天鹅事件”的信号，因此在全数据集存在的前提下，全数据当然是首选（但从第02故事中，我们可以看到，全数据通常是无法得到的）。对针对数据分析的价值，英特尔中国研究院院长吴甘沙先生给出了一个排序：全数据>好采样数据>不均匀的大量数据。

大数据分析技术运用得当，能极大地提升人们对事物的洞察力（insight），但技术和人谁在决策（decision-making）中起更大作用？在下面的“点球成金”小故事，我们聊聊这个话题。

全文：深度|十个段子反思大数据