师说 | 网络名师博客群 of 电子科技大学

大数据与人工智能的伦理挑战（2）

周涛 | 2018-09-03 | 科学网 | 3358次阅读

2. 中立性

表面上客观的数据和理性的算法，也可以产生非中立性的结果。事实上，数据和算法导致的歧视往往更难发现也更难消除。数据和算法对中立性的破坏，可能来自三方面的原因：一是采集数据或设计算法的相关人员蓄意为之；二是原始数据本身就存在偏见，因此该数据驱动的算法结果也会有偏见；三是所设计的算法会导致有偏见的结果。第一种原因归根到底是人的问题，在任何时代和任何环境中都可能存在，数据和算法不过是他们利用的工具罢了。因此本文着重分析后面两种情况。

即便数据是人类社会客观中立的记录，如果人类社会本身就存在偏见、歧视和不公平，那么相关数据自然也会带入我们社会的不公。例如，互联网求职的简历数据显示，在职场中身高和性别的歧视都非常严重[12]：平均身高越高，平均收入越高；在同等学历条件和行业背景下，女性要多工作5-10年才能获得和男性相当的薪水。显然，使用这类简历数据进行职位的推荐时，其结果必然自带歧视。卡内基梅隆大学的Datta等人最近的研究就显示，Google广告系统的人工智能算法在推送职位招聘信息的时候，同等教育背景和工作经历下的男性要比女性以高得多的频率收到高收入职位招聘信息[13]。普林斯顿大学Caliskan等人使用常见的纯统计机器学习模型，在万维网的标准文本语料库上进行训练，发现计算机可以“学会”沉淀在人类语言记录中隐含的偏见——既包括一些无关道德也无伤大雅的偏见，例如昆虫让我们联想到不愉快而花朵则常与欣愉的事情相伴，还包括一些严重的偏见，包括来自性别和种族的歧视[14]。实际上，有些我们人类自己都没有注意到的潜在的歧视，计算机也能通过机器学习捕捉到。这些数据上存在的偏见，会通过算法表现为带歧视的结果，这些结果可能进一步加大歧视，从而新的数据包含的偏见有可能被加剧，造成恶性循环。比如说数据中显示每十个前1%高年薪的高端职位只有一位女性，于是“性别为女性”这个特征值在获得高端职位推荐中将是一个负面的因素，算法也将避免给女性推高端职位信息。在没有基于大数据和人工智能的招聘信息服务的情况下，男性和女性获取高端职位信息的数量可能相差不大，这种情况下女性真正获聘高端职位的可能性也远低于男性。如今，计算机的自动服务在源头上就让女性更少知道信息，所以可以预期女性获得高端职位的比例将进一步降低，而这又再次加强了数据的偏差，从而让算法更少向女性推荐高端职位。这种恶性循环，会进一步放大原本就有的不公。

算法的设计和学习过程，也可能带来偏见甚至歧视。个性化推荐算法是目前在大数据和人工智能领域应用最为广泛的算法[15]，其目的是根据用户过往的浏览、点击、收藏、购买等记录，向用户推荐用户他需要或者喜欢的资讯、商品等等。淘宝的猜你喜欢和今日头条的个性化新闻推荐就是推荐算法非常典型的应用。在电商网站上，同一个品类下商品的价格差别巨大，例如都是灌开水的热水袋，在外观和功能差别不大的情况下，从十块钱到数千元都有。类似地，一支钢笔，从几元到几万元都有。如果某目标用户以前在电商网站收藏和购买的商品，在相关品类中价格排名都特别靠后，那么算法可能会在一个名为“价格敏感度”的特征维度上给该用户标上高分。于是乎，当该用户搜索一个关键词后，如果自己不做调整，可能从前到后翻十页，他看到的都是便宜货。尽管算法的初衷是提高该用户的点击率——这被认为对用户和商家都好——但是这事实上形成了同类商品展示对低收入消费者的歧视。试想如果在一个购物商场中部分人被告知因为收入过低不允许进入LV的店面，或者因为收入过低而要排队数小时才能入店，而高收入者有专享通道。这种歧视肯定是我们不能容忍的，而在互联网上，数据和算法带来的偏见与之类似但更为隐蔽。

随着数据化浪潮的进一步发展，个人获取和处理信息的难度会进一步加大，我们会更加依赖各种各样的信息中介。例如我们到一个陌生的城市，如何规划一条一日游的路线？又比如我们如何通过在线教育，选择若干课程，进入一个新的领域？再比如我们怎么在读书的时候就规划和选择自己的职业道路？高度发达的人工智能会充分考虑包括家庭、性别、民族、消费水平等等关于你的各种数据，给出“最适合你的选择”。于是，不同收入和不同家庭背景的人会抵达城市中不同的角落、下载不同的课程、规划不同的人生。在大数据的时代，不同出身的人所获取到的信息差异，可能比现实世界的差异还大，因此很可能形成更早就形成截然不同的视野、格局和能力，从而加剧而不是减少阶级的固化。

参考文献：

[1] Y. LeCun, Y. Bengio, G. Hinton, Deep Learning, Nature 521 (2015) 436.

[2] D. Silver, et al., Mastering the game of Go with deep neural networks and tree search, Nature 529 (2016) 484

[3] 维克托·迈尔-舍恩伯格，肯尼思·库克耶（著），盛杨燕，周涛（译），《大数据时代：工作、生活与思维的大变革》，浙江人民出版社，2013年。

[4] 吴军，《智能时代：大数据与智能革命重新定义未来》，中信出版集团，2016年。

[5] 周涛，《为数据而生：大数据创新实践》，北京联合出版公司，2016年。

[6] 埃克里·托普（著），张南，等（译），《颠覆医疗：大数据时代的个人健康革命》，电子工业出版社，2014年。

[7] Y. Lu, et al., Traffic flow prediction with big data: A deep learning approach. IEEE Transactions on Intelligent Transportation Systems 16 (2015) 865.

[8] Y. Cao, et al., Orderliness predicts academic performance: Behavioral analysis on campus lifestyle, Journal of the Royal Society Interface 2018.

[9] Executive Office of the President (Obama), National Science and Technology Council Committee on Technology, Preparing for the future of artificial intelligence, 2016.

[10] European Economic and Social Committee, The ethics of Big Data: Balancing economic benefits and ethical questions of Big Data in the EU policy context, 2017.

[11] House of Lords in UK, AI in the UK: ready, willing and able, 2018.

[12] X. Yang, et al., Height conditions salary expectations: Evidence from large-scale data in China, Physica A 501 (2018) 86.

[13] A. Datta, et al., Discrimination in Online Advertising: A Multidisciplinary Inquiry, Proceedings of Machine Learning Research 81 (2018) 1.

[14] A. Caliskan, J. J. Bryson, A. Narayanan, Semantics derived automatically from language corpora contain human-like biases, Science 356 (2017) 183.

[15] L. Lu, et al., Recommender Systems, Physics Reports 519 (2012) 1.

文章原载于作者的科学网文章，所述内容属作者个人观点，不代表本平台立场。

本文经过系统重新排版,阅读原内容可点击阅读原文

热榜

大数据与人工智能的伦理挑战（1）

磨刀不误砍柴工

诸神归位——我电院系调整的原因及必要性分析

妈妈给了我什么？——兼谈儿童教育

专业放大镜：生物技术（生物-信息复合培养实验班）

成电建校史

推荐描述危机时刻的选择的短篇小说《堪萨斯》

网络信息挖掘的关键算法研究（上）