师说 | 网络名师博客群 of 电子科技大学

周涛抽样偏差与算法偏差

抽样是调查研究工作中普遍采用的一种经济有效的方法。抽样的目的是以较小的代价分析总体，因此一个基本的要求就是要保证所抽取的样本对于总体而言具有充分的代表性，可以看作是从总体中完全随机抽取得到的。如果样本某些维度的特征和总体存在明显偏差，对总体的分析和估计就不再可信，我们称这种问题为抽样偏差。譬如如果总体样本中男性和女性各占50%左右，但是抽样得到的样本中男性占比高达70%，那么就存在明显的抽样偏差，基于该抽样的分析也是不可信的。又比如想通过分析微博的语言来看整个中国的情绪状况和幸福水平，就可能出现表示偏差，因为微博用户全体或随机抽样会对年轻人“表示过度”而对老年人“表示不足”。这个问题看起来应该很容易避免，但事实上是统计分析中最为常见也极难避免的一个问题。抽样偏差导致的最严重“调查灾难”来自于1936年《文学文摘》对美国总统大选的民调分析。从1916年到1932年，《文学文摘》毫无疑问是美国大选民调的第一高地——该杂志连续五届准确预测了美国总统大选的结果。1936年富兰克林·迪拉诺·罗斯福与艾尔弗雷德·兰登共同竞选美国总统。《文学文摘》杂志根据大约240万人参加的一次民意测验预测，兰登会以57%对43%的优势获胜。这个抽样的规模非常大，所以尽管在民调之前，绝大多数观察家认为罗斯福将毫不费力的获胜，但基于如此大规模抽样的民调结果依然让选举变得扑朔迷离。然而，实际的竞选结果是罗斯福以62%对38%的一边倒优势赢得了1936年的选举，连任总统——这与《文学文摘》的预测南辕北辙。在如此大的样本规模下给出如此离谱的预测，根源就是抽样偏差。事实上，《文学文摘》杂志邮寄了一千万份问卷，收到了大约240万份回复。《文学文摘》的调查对象很多都是从电话簿、汽车车主的登记资料中选取的，而在经济大萧条时期，电话和汽车并不像现在这样普遍，拥有汽车和住宅电话的人大多都是富人，而富人普遍都支持共和党的候选人兰登。正是因为抽样的偏差，导致了完全错误的预测。

于 2023-11-12 发布于科学网 167 次阅读