2016年所有的工作请参考下面的链接。
http://blog.sciencenet.cn/home.php?mod=space&uid=3075&do=blog&id=1024601
下面我只简单说说我最喜欢的工作6-10!
前面1-5见链接:
http://blog.sciencenet.cn/home.php?mod=space&uid=3075&do=blog&id=1026175
----
[6] L. Pan, T. Zhou, L. Lu, C.-K. Hu, Predicting missing links and identifyingspurious links via likelihood analysis, Scientific Reports 6 (2016) 22955.
统计物理处理网络的一个笨笨的方法就是分析网络系综(network ensemble)的结构,看看在系综中不同网络出现的概率,或者叫似然(likelihood)。我们可以把这种方法叫做学院派的方法,因为我们在大学物理中学到的统计力学就是这个样子。最近,我们尝试把这种方法应用到链路预测中,获得了迄今为止我们尝试过的所有方法中最高的精确度。实际上,我们2015年那篇PNAS的文章(本文第一作者潘黎明也是那篇PNAS的共同第一作者)提出了一种名为Structural PerturbationMethod (SPM),那个时候我们已经知道SPM没有本文的算法精确(尽管差距不大,但是总是差一些),但是我们没有说出来,一则是有私心(因为和其他前沿算法比,PNAS的那个方法能胜出),二则本文还没有成文发表。现在我们投稿出去,遇到审稿人要我们和自己这篇文章的方法比较,但是确实比不过,真是悲催!
好了,回到问题本身。学院派方法的思路是很简单的,大家权且当作回忆一下我们大学物理的课本:(1)为网络A定义一个哈密顿量(能量),H(A),这个量越小,网络出现的可能性(似然)越大;(2)一个网络A出现的似然被定义为P(A)=1/Z*exp[-H(A)],这里Z就是配分函数,是对给定的网络系综(一群网络的集合,根据需要定义)中所有网络A对应的exp[-H(A)]求和。对于非统计物理出身的朋友,不妨把Z简单看成归一化因子。
接下来就回到了链路预测的老路子上面了。我们把网络分成两部分,一部分是训练集,不妨记为A1,一部分是测试集,不妨记为A2,我们要做的事情,就是看能够多大程度上利用A1的信息预测A2 中的边。下面我们就可以给每一条未在A1中出现的链路打分,然后认为得分越高的链路,实际存在的可能性越高(越有可能在A2中)。一条链路e的得分是: S(e)=exp[-H(A1+e)]/{exp[-H(A1+e)]+exp-[H(A1)]}。
虽然出发点和应用场景不一样,但是这套方法和社会科学中的指数网络模型[5]是类似的,这也说明了不同学科绕着同一个问题走啊走,是容易形成近似的解决方案的,尽管方法论、理念和路径可能都不一样(有从北峰上的,有从南峰上的,还有坐缆车的……)。类似的例子很多,例如pLSA和矩阵特征值分解的迭代寻优,又如麦克斯韦-波尔兹曼的最可几分布与计算机科学里面的最大熵方法等等。
最后回到一个问题上,就是怎么定义H?这个可能的选择很多,根据不同类型网络生长组织的特性,可以有不同的定义方法。我们选择了一个大部分网络都具备的特征,就是集聚性或者同质性(clustering or homophily),作为定义H的唯一考量。在此条件下,H被定义为:H(A)=-[b3ln(TrA3)+b4ln(TrA4)+b5ln(TrA5)+...],显然这个式子是和subgraphcentrality等指标有关系的(考虑的是三阶圈、四阶圈、五阶圈……),而且可以写成特征值的形式(细节见论文)。其中b3, b4, b5, ...这些量的确定可以用最大伪似然方法(maximumpseudo-likelihood method)。
结局可能大家都知道了,这种学院派的简单方法,并且只考虑了homophily一个特性,就完胜了很多经典的方法层次模型法(Clauset的Nature)、随机分块模型法(Guimera的PNAS)、结构微绕法(我们德PNAS)等等,以及各种常见的相似性方法。特别地,在甄别伪造的噪音边方法,这个方法的表现也是最好的。 这个方法的缺陷就是很慢!很慢很慢!很慢很慢很慢!
在线链接(可免费下载):
http://www.nature.com/articles/srep22955
[7] Z. Yang, D. Lian, N. J. Yuan, X. Xie, Y. Rui, T. Zhou,Indigenization of urban mobility, Physica A 469 (2017) 232-243.
这篇文章是紫陌在微软访问的阶段开始的,我在《为数据而生:大数据创新实践》一书中有极为简单的一两句话介绍。这个工作起点很好,我们2014年中完成初稿,放到arXiv上,很快就被《麻省理工技术评论》(MIT Technology Review)以“计算人类学:一门涌现科学”(The EmergingScience of Computational Anthropology)为题,进行了专题报道,把这个工作的意义夸到了天上。
https://www.technologyreview.com/s/528216/the-emerging-science-of-computational-anthropology/
遗憾的是,投稿-评审-回复-再评审-再回复……多轮之后,最终却因为伦理的问题(ethics issue)被拒绝了——尽管我觉得这个研究不会涉及到任何可能泄露个人隐私或其他问题(大家可以看文章自己进行判断),但是这个事情让我吃一堑长一智,明白了哪些期刊伦理学要求高,以及如何提前做好所有文件。另外一个收获就是,应付了无穷多的审稿人之后,文章目前的质量远远好于第一个版本。
在这篇题为“城市移动中的土著化程度”(Indigenization of Urban Mobility)一文中,我们分析了用户通过“街旁”这一手机应用,在我国北京、上海、南京、城都、香港五个城市的137万余份签到记录。通过比对用户个人的注册信息,用户被分为本地人和外地人两类,统计分析显示,本地人和外地人在城市移动模式上存在明显的差异,利用注册信息,可以大幅度提高对用户“下一时刻要访问地点”的预测精确度。
进一步地,也是文章精彩的地方,我们提出了基于用户的行为模式刻画“用户像本地人的程度”的“土著化指数”,利用该指数,可以在不使用用户注册信息的前提下,获得比使用注册信息更精确的预测效果——这再一次告诉了我们,行为数据给出的结果比填报的信息更有价值(当然,要用数据科学家的眼光和方法去看)。土著化指数还能够用来观察城镇化进程中搬迁到城市中居住的农村人口需要多长时间才能形成和城市原住民类似的出行习惯。
《麻省理工技术评论》高度评价了这一研究工作,认为这一研究工作具有非常明确的实践应用价值,可以提高“基于位置服务”的精确性。更重要的是,这类工作将开创名为“计算人类学”的分析研究人类行为的新学科方法,对于人类学家了解人类行为模式,分析大规模人口迁移以及社区形成,有方法论上的创新意义。
在线链接:
http://www.sciencedirect.com/science/article/pii/S0378437116309062
[8] 高见,周涛,大数据揭示经济发展状况,《电子科技大学学报》,2016年7月,第45卷第4期,625-633页。
先说明一下,我们团队有很多很好的工作,都发表在《电子科技大学》学报上,例如“人类行为时空特性的统计力学”,一篇长达60页的综述文章。这个文章的全文下载和引用都还不错,国内做这个方向的同事很多也读过此文。
本文虽然短一些,但是我感觉带来的影响力或许更大,因为这是新的研究理念和研究方法的评述。实际上,随着大数据时代的到来,与经济活动有关的数据数量和质量都得到了极大的丰富和提高。通过分析这些来源于社会经济系统中的大规模数据,人们有机会在几乎不花费调查成本的情况下对经济发展状况进行精准和实时的测量。这和原来统计系统层层上报的数据分析,思路和方法上完全不一样。
在这篇文章中,我们特别关注大数据对于经济发展状况的刻画,简述了不同类型的数据在揭示宏观经济结构和微观社会状况方面的具体应用,并进一步分析了大数据助力解决区域经济发展战略和宏观产业结构升级问题的可能。近期在经济学顶尖期刊,以及在Nature、Science、PNAS这三个综合性期刊的重要文献,我们基本都做了介绍。
精彩的应用很多,包括:(1)分析6500万手机用户移动通讯的多样性,反映经济发展水平;(2)利用3亿多用户腾迅和新浪的社交活跃性数据,预测经济发展,并找到经济结构可能有异常的城市;(3)通过全国人口手机行为数据精细描绘卢旺达整个国家的财富分布;(4)利用灯光和遥感数据判断城市经济发展水平和健康程度,预测贫困;(5)利用产品进出口数据,给出国家在整个全球竞争中的适应度水平,并预测国家未来经济发展的走势;(6)利用Google街景数据自动判断城市的贫困情况;(7)利用社交网络和手机通讯数据计算失业率……等等,例子太多了,我不一一举例了,大家免费可以下载来看(找页面中请点击下载字样)。
特别说一下,这个文章上线4个月,摘要点击2741次,排入了学报点击排行榜前3位!!
在线链接(可免费下载):
http://www.xb.uestc.edu.cn/nature/index.php?p=item&item_id=1891
[9] J. Yuan, Q.-M. Zhang, J. Gao, L. Zhang, X.-S. Wan, X.-J. Yu, T. Zhou, Promotionand resignation in employee networks, Physica A 444 (2016) 442-447.
大数据正在成为人力资源管理与招聘行业决胜的关键。类似于经济学的资本优化配置,大数据分析正在帮助企业人力资源管理者们做出更加理性的决策,科学合理地促进和释放生产力。大数据分析工具帮助人力资源管理从凭借经验的模式逐步向依靠事实数据的模式转型;人力测评由主观性强的单一专家进行测评转向构建数学模型依靠大数据处理技术进行测评。尝试整合更多的数据,实现对员工绩效和升离职的提前预测,是整个人力资源领域的大势所趋。
这篇文章就是在这个重要的背景下完成的。除我以外两个最主要的贡献者分别是我高中的同班同学袁佳(奇妙吧)和张千明博士。[8]中介绍的高见也作了重要的贡献。特别有意思的是,这篇文章中还有很多企业家的鼎力支持,包括数联寻英的张琳艳和思创银联的万雪松和于晓军。他们的数据是研究的起点。
我们分析了企业雇员网络(内部社交网络,类似于新浪微博)和互动网络(任务系统、邮件网络、门禁系统等)的数据,发现员工在雇员网络中的重要程度与他的绩效关联性非常强——不管是员工的内部社交网络(SN)还是工作任务网络(AN),员工在网络中的重要性和绩效之间的关联非常强。Pendland小组在2012年的研究结果也显示,工作中的交流沟通能够提高绩效。与Pendland结果不同的是,我们的实验数据是非控制性的,完全是真实数据的结果,且数据量更大;而且我们的结果显示,与工作相关与否的各种沟通都有助于提高绩效!
员工所处在雇员网络中的重要程度,往往能够从侧面反映出员工在企业中的核心性和价值。如果员工积极参与公司事务,与同事保持密切交流互动,那么获得升职的可能性也就越大,员工处于雇员网络中的节点重要性指标很大程度上能够反映员工的升职可能性。类似地,如果一个员工在工作中几乎不与其他同事进行业务的探讨和交流,在生活上也不关心其他员工,那么这个员工往往被认为是脱离集体,其离职的可能性也越大。大部分的离职员工在雇员网络中都具有非常靠后的节点重要性排序,这表明雇员网络中越不重要的员工出现离职的可能性越大。不过,也有少数员工虽然具有非常靠前的节点重要性排序,但也出现了离职,这暗示影响员工离职的因素是多种多样的,比如核心员工的被挖角、女性员工婚嫁和生育等。
我们尝试通过员工所处在雇员网络中的节点重要性指标来预测员工的升职和离职。对于员工而言,仅仅具备两个状态。以离职为例,要么离职,要么不离职。所以预测员工升职和离职的问题可以看作二分类问题,通过简单的逻辑回归就能够确定哪些指标最适合预测员工的升职和离职,并给出预测准确度。
对于离职而言,我们仅通过互动网络中的节点重要性指标来预测最为准确,预测准确度约为0.61。这说明仅仅依靠互动网络的信息,就能将超过一半的离职员工提前预测出来。对于升职而言,仅通过社会网络中的节点重要性指标来预测最为准确,准确度约为0.15。所以,从预测准确性上来看,离职的可预测性远远高于升职的可预测性。究其原因,离职更多地取决于员工相对自由的个人决定,而升职一般取决于公司职位空缺和人士安排等诸多因素,不是一个人单凭努力就可以升职的,这导致了升职预测本身就不容易。两个网络对于升职和离职都有很好的预测能力,总体来说,工作任务网络对于预测离职效果更好,而社交网络对于预测升职效果更好。暗示离职的员工很可能是业务能力不高,而升职则需要长袖善舞,有相当的社交能力。
“一切都被记录,一切都被数字化”。在大数据时代,人力资源管理作为人才和资源的分配管理者,不应该仅停留在辅助的角色上,而是应该借助数据科学成为一个组织最为重要的决策机构。遗憾的是本文所分析的企业只是一个国内100+员工的小企业,我们希望未来能够积累更多相关的数据,获得更具有普适性的结果!
在线链接:
http://www.sciencedirect.com/science/article/pii/S0378437115008857
[10] J.-G. Liu, J.-H. Lin, Q. Guo, T. Zhou, Locating influentialnodes via dynamics-sensitive centrality, Scientific Reports 6 (2016) 21380.
我在2016年3月14日时候(对于我们而言,这是一个重要的日子,例如2.14是情人节,3.14是pi节)写过一篇半科普半文献笔记的博文《评价节点重要性的动力学指标》。
http://blog.sciencenet.cn/blog-3075-962600.html
在这篇博文中,我说明了在度量节点重要性的时候,为什么要考虑动力学的指标——且不说不同动力学类型,节点重要性排序不同,即便相同的动力学,在不同的参数条件下,网络中节点重要性的排序变化也非常大[M. Sikic et al., EPJB 86(2013) 440],这就使得如果不考虑动力学的性质和参数,实际上没有办法得到任何有效排序。
在本文中,我和刘建国在上海财经大学以及上海理工大学的研究团队合作,分析了离散的网络SIR传播动力学,在给定时间步t的情况下,如何寻找传播影响力最大的节点。与这方面以前的研究不同,我们同时考虑了传染率、康复率和有限的时间步三个参数。我们得到的带有t截断的表达式,在数值模拟中远远好于度、k-shell指数、特征向量中心性等指标。
我们的工作是这个方向的一个尝试,当然,距离解决这个问题还有54000公里远。之所以喜欢这个工作,一个重要的原因是,我们所得到的表达式,实际上可以看成是一个截断的AlphaCentrality [P. Bonacich, P. Lloyd, Social Networks 23 (2001)191],而我在写这篇文章的时候并没有注意到这一点。于是我们完全从另外一个方向出发给出了对于AlphaCentrality所涉及参数一个不同的更富动力学意义的解释。有兴趣的读者可以下载阅读全文,文章的结论和写作都非常便于快速阅读理解。
在线链接(可免费下载):
http://www.nature.com/articles/srep21380