师说 | 网络名师博客群 of 电子科技大学

人工智能的七宗罪

周涛 | 2021-08-02 | 科学网 | 752次阅读

很多人都讨论过大数据与人工智能可能带来的负面问题，包括伦理问题和错误结果。我也曾在《大数据与人工智能的伦理挑战》[1]和《预测的局限性》[2]两篇文章中作过一下科普性的介绍。但是，较少有文章讨论这些错误结果（或者错误解读）以及部分伦理问题（如算法加剧了歧视）的来源到底是什么？最近Suresh和Guttag的一篇论文[3]（注意这篇论文虽然初稿提交是2019年，但在2021年还做了很大的更新）分析了人工智能从数据采集到应用开发落地的全生命周期，指出了七种可能给人工智能结果带来伤害的偏差。下面我给大家简要介绍一下Suresh和Guttag所说的七宗罪到底是什么。

历史偏差。即便数据来自一个非常好的抽样，精确地反映了特定历史时期的状况，如果那个时期本身就存在负面的内容或结果，就会带来所谓的“历史偏差”，如果直接用这个历史数据，算法就有可能把历史上的伤害搬迁到现在。Garg分析了基于Google新闻、Wikipedia等大语料库所得到的单词的向量表示，发现这些历史语料库已经沉淀了严重的性别和伦理方面的刻板印象，譬如说词语“护士”和女性高度相关，词语“工程师”和男性高度相关，词语“同性恋”与疾病、耻辱高度相关等等[4]。我们现在努力再消除的一下有害的观念可能在历史语料中表现很充分，如果不加分辨地应用，聪明的算法可能很快就学会了历史上的偏见。

表示偏差。如果用于训练和优化模型的数据不能很好地表示该模型或者相关结论所应用或针对的目标群体，就可能出现表示偏差。譬如想通过分析微博的语言来看整个中国的情绪状况和幸福水平，就可能出现表示偏差，因为微博用户全体或随机抽样会对年轻人“表示过度”而对老年人“表示不足”。所以，用一个来源数据训练出来的模型，有可能对于该来源中表示不足的群体并不适用或者效果较差，如果把模型和结论用来其他来源的数据集中，则需要更加小心，因为一般而言都会存在表示偏差。例如ImageNet来自中国和印度的照片只占1%和2%，因此直接用ImageNet训练出来的分类器在分类物品和人的时候，如果这个图片来自印度，精确度就显著差于平均水平[5]。

测量偏差。用于量化特征或者目标函数的指标有可能因为选择不当，而起不到预期的效果甚至带来错误的结论或有害的应用。譬如指标可能过于简化而达不到预定的效果——比如简单用GPA分值来描述一个学生的校园生活是否成功。有一些测量偏差藏得非常深。譬如在犯罪风险评估系统中，一个区域中逮捕事件发生的次数（常用的指标是这个区域中万人出现逮捕事件数量）是非常重要的特征，但是逮捕和犯罪其实是不一样的，因为警力投入多、巡逻密集的区域，犯罪后被抓住的可能性会更大——在美国，黑人区投入的警力和巡逻要高于白人区，所以即便黑人和白人犯罪比例相同，黑人被逮捕的比例也会更大。可怕的是，这种偏差还是正反馈的，因为逮捕越多，巡查越多，巡查越多，逮捕就更多。当然，也不是开放式的正反馈，因为当犯罪成本显著大于收益，就降下来了。Dressel和Farid[6]前两年有一篇很有影响力的文章（这个文章突然爆火，估计和后面的“黑命贵”活动也有关系），就是通过数据分析指出这种偏差会显著高估黑人再次犯罪的风险，从而使其在假释等方面遭受不公平的待遇。

聚合偏差。如果有一些特殊的群体需要特别处理，而我们却使用了通用模型，就会出现所谓的聚合偏差（这里的聚合是指把若干需要特别处理的群体数据聚合在一起进行学习而出现的偏差）。即便数据恰当地表示了这些特殊的群体，这样的偏差依然会存在。Frey等人[7]的研究显示，黑帮少年有一些特殊的表情符号的使用习惯，而一些普通人看起来的脏话和挑衅的话，在说唱歌手看来是抒发感情的常见歌词，如果不把这些群体单独进行处理，他们就会被误判——例如黑帮少年一下危险的信号无法被发现，说唱歌手则都会被认为是好斗、挑衅甚至反社会的。最近有越来越多的研究在质疑通用模型的适用性，“通用”本身已经成了一个疑似有罪的标签。

学习偏差。机器学习模型对于目标函数是高度依赖的。除此之外，我们还有一下其他的指标来评价模型的优劣。这些指标往往也被放入到目标函数中，比如我们希望学习到的参数矩阵比较稀疏（参数少），就可以把参数矩阵的0阶范数放入目标函数中，又如我们希望学习到的决策树比较紧致，就可以把决策树的节点数放入目标函数中。人工智能死板的地方就在于，当我们确定了目标函数后，它会努力将优化目标函数这件事情做到极致，而在此过程中可能会大幅度损害模型其他方面的特性（我们在设计目标函数的时候可能没有注意到的特性）。比如对推荐系统精确性的优化可能导致所推荐内容多样性不足，从而让用户陷入信息茧房[8]；又如对模型紧凑度的强调可能会导致表示不足的特征进一步被削弱，因为紧凑的模型更容易聚焦于频繁出现的特征[9]；再如强调数据在计算过程中的隐私保护，也会导致表示不足的群体在模型中的影响力下降（因为这些群体更容易被反匿名化）[10]。

评价偏差。评价偏差是指用于评价算法的数据集中某些群体表示不足，从而使得模型训练的时候对这些群体“重视不够”，导致模型在这类群体上表现不佳。评价偏差和表示偏差有相似的地方，但前者来源于用于评价的数据，或者来源于用于训练的数据。比如用于表情识别的基准数据集（常被学术界和产业界用来评价和验证算法）Adience和IJB-A中黑人女性占比分别只有7.4%和4.4%，这就导致大量以这两个数据集为基准来评价的算法，在黑人女性表情识别方面的表现要低于它们在整个数据集上的表现[11]。

实施偏差。如果模型真正拟解决的问题和这个模型被部署实施用来解决的问题之间存在不匹配，就会出现所谓的实施偏差。如果模型被部署到一个完全自动化的系统，不需要把结果呈现给人并由人做出最终判断（人有一定的纠偏能力），那么就更要小心实施偏差带来的伤害了。譬如用来预测一个人未来有多大可能性会犯罪的系统曾被尝试用来判断一个犯罪分子的刑期。Collins[12]和Stevenson[13]都指出，这种推广应用或者孤立应用会带来非常大的风险，他们的分析显示犯罪分子的刑期会变得与个人特性相关，而且会出现一些不合理的获利或者损失。与之相应，一个公正的司法系统下，犯罪分子的刑期应该只和审判要素有关。我琢磨是不是有必要针对中国的裁判文书网开展研究，看看中国的审判是否也存在类似的问题！

参考文献

[1] 周涛，大数据与人工智能的伦理挑战（上），《电子科技大学学报.社会科学版》，2018年第5期，1-6页。

[2] 周涛，预测的局限性，《大数据》，2017年第4期，104-108页。

[3] H. Suresh, J. Guttag, A Framework for Understanding Sources of Harm throughout the Machine Learning Life Cycle, arXiv: 1901.10002.

[4] N. Garg, L. Schiebinger, D. Jurafsky, J Zou, Word embedding quantify 100 years of gender and ethnic stereotypes, PNAS 115 (2018) E3635-E3644.

[5] S. Shankar, Y. Halpern, E. Breck, J. Atwood, J. Wilson, D. Sculley, No classification without representation: Assessing geodiversity issues in open data sets for the developing world, arXiv: 1711.08536.

[6] J. Dressel, H. Farid, The accuracy, fairness, and limits of predicting recidivism. Science Advances 4 (2018) eaao5580.

[7] W. R. Frey, D. U. Patton, M. B. Gaskell, K. A. McGregor, Artificial Intelligence and Inclusion: Formerly Gang-Involved Youth as Domain Experts for Analyzing Unstructured Twitter Data, Social Science Computer Review 38 (2020) 42-56.

[8] T. Zhou, Z. Kuscsik, J.-G. Liu, M. Medo, J. Wakeling, Y.-C. Zhang, Solving the apparent diversity-accuracy dilemma of recommender systems, PNAS 107 (2010) 4511-4515.

[9] S. Hooker, N. Moorosi, G. Clark, S. Bengio, E. Denton, Characterising Bias in Compressed Models, arXiv: 2010.03058.

[10] E. Bagdasaryan, O. Poursaeed, V. Shmatikov, Differential privacy has disparate impact on model accuracy, Advances in Neural Information Processing Systems 32 (2019) 15479-15488.

[11] J. Buolamwini, T. Gebru, Gender shades: Intersectional accuracy disparities in commercial gender classification, In Proceedings of Conference on Fairness, Accountability and Transparency (pp. 77-91, 2018).

[12] E. Collins, Punishing Risk, Geo. L. J. 107 (2018) 57.

[13] M. Stevenson, Assessing risk assessment in action, Minn. L. Rev. 103 (2018) 303.