该文发表于《中国科学报》2019年9月5日,第7版
链接:http://news.sciencenet.cn/htmlnews/2019/8/429924.shtm
这个夏天,网友们津津乐道于一桩“悬案”——上元节这一天,这大唐长安城里三百桶伏火雷背后的大Boss究竟是谁?
根据马伯庸小说《长安十二时辰》改编的这部影视剧,结局出乎所有人的意料——幕后主谋竟是欲凭借“大案牍术”为大唐力挽狂澜的小吏徐宾。
徐宾彻底火了,有人说他堪比“大数据”创始人。
在真正的大数据专家眼里,这当然是一句玩笑话。不过,时至今日,徐宾在剧中想要施展的抱负,科学家们真的在一步步尝试和实现。
近日,《物理报道》Physics Reports发表的一篇综述论文“计算社会经济学”Computational Socioeconomics,说的正是此事。
“大案牍术”距离大数据十万八千里
靖安司是《长安十二时辰》中虚构的一个情报中心,它的厢房里有一个庞大的库房,里面堆积着长安从六部到两市各个方面的卷宗,可以随时调阅。
主事徐宾独创了一套算法——“大案牍术”,可根据大唐卷宗案牍中记录的各种数字,准确推断真相,预测未来。
在他的眼里,这不仅仅是数字,它更是百姓,是他们的生计、生涯。大唐租庸调之均税制,以人丁数字为据,基础就是来自于此。
徐宾意识到了,数据可以为国家制定宏观政策提供重要的依据。
调皮的网友们把“大案牍术”称为“穿越版”的大数据技术。在成都电子科技大学大数据研究中心主任周涛看来,“大案牍术”和大数据还差得十万八千里。
“它顶多是对数据做了分门别类、规整检索,却不是数据的处理机器。所以它解决的是如何快速找到有用的相关数据,但无法处理这些数据。”
不过,“大案牍术”还是独受靖安司司丞李必的青睐,这位少年天才竟然坚信“数据即真相”这个道理。
这在当时当然是异想天开。
数千年来,政府都试图通过收集信息来管理国民。可是,即便到了20世纪,传统的获取真实数据的方法仍然有很多局限性。
周涛解释,传统的方法感知社会和经济发展状态,主要依赖于大规模的社会经济普查。然而,普查数据的获取耗时费力,往往有很长时间的滞后。另外,很多经济不发的国家和地区,信息系统不够完善,也无财力支撑大规模普查。
被誉为“大数据商业应用第一人”的维克托?迈尔?舍恩伯格在他的著作《大数据时代》中提到,美国宪法规定,每10年进行一次人口普查。美国在1880年进行的人口普查,耗时8年才完成数据汇总。1890年进行的人口普查,预计要花费13年的时间来汇总数据。因此,他们获得的很多数据都是过时的。
虽然人类发明了随机取样的方法,但大量来自问卷调查和自我报告的调查数据通常只包含少量样本,并且存在社会可取性偏见。
从1920年开始至今,经济学界开启了一场经济是不是可以计算、是不是可以预测的大辩论。反方所持的观点之一就是来自真实数据的不可得性,此外,还有人际之间的效用无法定量、不可比较。
事实上,在周涛看来,包括了经济学、社会学、法学、政治学等学科在内的社会科学,都面临相似的问题——研究对象的复杂性和不确定性,从而使得这些学科想从定性到定量的研究道路非常困难,也就缺乏预测未来的能力
“计算社会经济学”的诞生
直到近年来,大数据和人工智能技术的发展,为社会科学尤其是社会经济学研究带来了前所未有的机遇和改变。
成都电子科技大学大数据研究中心高见博士、基础与前沿研究院教授张翼成和周涛发表的这篇“计算社会经济学”论文解释,一方面,卫星遥感、手机通讯、社交媒体等大规模社会经济数据可用性提高,有低获取成本、实时更新和高时空分辨率等优势;另一方面,机器学习、网络分析、文本挖掘等社会经济分析工具和计算方法进步,有效提升了感知和预测社会经济的能力。
2013年起,一直从事大数据研究的周涛便开始思考——大数据应该如何介入以人的活动和关系为研究基础的社会科学?
这些年,周涛团队搜集、总结和分析了社会经济学中定量化研究用到的数据、方法、工具,看到了许多不同领域的科学家在感知和推断社会经济态势,洞察和理解社会经济规律中一些有意思的尝试。
遥感是利用传感器技术对地球上的物体进行探测而获得的信息,最初用于地球科学学科。近年来,来自遥感的高分辨率数据,已被用来提供有关经济活动的信息。例如,利用捕捉夜间光亮的卫星图像数据,结合全球人口动态统计分析数据库的人口数据,使用统计方法估计国家和区域的社会经济状况,以此绘制出世界贫困地图,提高对全球贫困问题的及时感知。
科学家还通过复杂系统物理建模对产品出口数据进行分析,并将该模型用在了GDP预测上。结果发现,该模型的预测准确率比国际货币基金组织的预测结果准确率高出了足足25%左右,在全世界引起了轰动。
此外,利用手机记录的通话情况、社会通讯网络、移动轨迹等数据,能建立预测个人收入的模型。科学家对卢旺达856名手机用户的家庭经济情况进行了详细的调查,然后通过机器学习方法,建立了利用手机数据预测家庭经济情况的模型,从而可以以很高的精度直接从手机数据中推测卢旺达150多万家庭的经济情况。
再比如,通过分析超过2亿微博用户的注册数据,发现在线社交活跃度与经济发展状况非常相关。经济发展高于社交活跃度预期的城市,第二产业发达;经济发展低于社交活跃度预期的,第三产业发达。
基于企业内部的在线互动平台数据,构建员工之间的社交和工作网络,还可以计算员工在网络中所处的位置。研究发现,处于网络核心位置的员工更容易在未来升职,处于网络边缘位置的员工更容易在未来离职。由此,可以构建模型,较好的预测员工升职和离职可能性。
周涛表示,这就是一个全新的交叉学科研究分支的诞生——计算社会经济学。它的研究内容可以涵盖三个层面:国家社会经济状况、区域/城市经济结构、个人社会经济属性,以及两个应用:应急和灾害管理、发展和升级策略。
在这篇长达83页的综述文章里,研究人员从不同期刊和跨多个学科的会议记录上寻找这一新兴研究领域的成果,并把这些结果收集在一起。他们还根据研究对象和数据集的不同对有代表性的结果进行分类整理,从而看到目前计算社会经济学应用的全景。
数据专家要对社会科学有所抱负
周涛表示,计算社会经济学特别强调三个关键词:“定量化”,强调用数值而非描述来刻画问题和呈现结果;“真实数据”,强调理论模型必须要服从真实数据,以对真实数据的解释和预测能力为评价准绳;“大规模”,强调尽可能获取能够直接反映全体的数据样本,即全体尺度数据。
但是,他也提到,文章中介绍的许多重要方法和结论仍然没有被接受为社会经济学的一部分。事实上,从事计算社会经济学相关工作的研究人员,目前分散在许多学科中,还没有被认真地视为传统社会经济学方法论的挑战者。
“作为一个大数据专家,实际上大数据以及人工智能带来了很大的变化,对科学最大的冲击,不是来自于计算机学科本身,很大程度上是来自于它对社会学、经济学、管理学、心理学等社会科学的影响。”周涛认为,把原来只是半定量或者定性分析的学科变成一个定量化的学科将是一场巨变。“因此,数据专家应该对社会科学有所抱负。”
当然,论文也指出,作为新兴的交叉学科研究分支,计算社会经济学的研究还面临着一些方法论上的不足。
首先是数据质量,特别是真实性还无法得到最充分的保障。虽然来源于真实世界的数据是计算社会经济学的优势所在,但来自社交媒体数据的真实性依然常常被人质疑。
其次,研究结果的适用范围和相关性有限。计算社会经济学使用的数据并不能完全覆盖所有人口。而且,社会经济问题受宗教、文化、政治等地方性因素的影响较大,某一地区的某一结论可能不适用于其他地区。
为此,研究人员提出了未来有待研究和解决的问题方向。尝试设计具有很强解释和预测能力的新指标;利用数据驱动的方法论,对传统社会经济学理论的正确性和适用性进行重新分析;发现因果关系,形成理论洞见;通过控制实验验证新的理论成果;将理论和实证分析的方法与结果用于实践。
相关论文链接:https://doi.org/10.1016/j.physrep.2019.05.002
论文发表信息:J. Gao, Y.-C. Zhang, T. Zhou, Computational Socioeconomics, Phys. Rep. 817 (2019) 1-104.
科学报发表版本下载:
论文免费下载:
Computational+Socioeconomics.pdf