2016年最喜欢的十个工作(上)
周涛  |  2017-01-08  |  科学网  |  570次阅读

  2016年所有的工作请参考下面的链接。

http://blog.sciencenet.cn/home.php?mod=space&uid=3075&do=blog&id=1024601

   下面我只简单说说我最喜欢的工作!

   [1] 周涛,《为数据而生:大数据创新实践》,北京联合出版公司,2016.

   排名第一的是一本书,前前后后花了三年时间,是我们一个大团队在一线工作的提炼和思考,我觉得对于大数据只闻其声,不知道真正的理念和效果的同行,应该有很大的帮助。

   [京东介绍,略有删节]这不是坚硬的学术专著,而是一部柔软的情怀之书!没有晦涩的文辞,枯燥的说教,字里行间洋溢着浓浓的数据情怀和拳拳的责任之心。周涛讲述了很多在大数据领域努力拼搏希望有所创新的中国人的故事,相信这些故事背后的理念、技术和精神能够唤起更多年轻的创新者,为我们民族的复兴作出自己的贡献。

在线链接(京东)

https://item.jd.com/11919842.html  

   [2]L. Lu, T. Zhou, Q.-M. Zhang, H.E.Stanley, The H-index of a network node and its relation to degree and coreness,Nature Communications 7 (2016) 10168.

   排名第二的是年初在NatureCommunications上的一篇以证明为主的工作,我和琳媛是共同第一作者。实际上是她先发现了这个“巧合”,我后给出了证明。这个工作是我截止到目前,在网络科学或者复杂网络研究中最精巧的一个工作,所证明的定理非常基本、优雅!

   网络是由节点和链路组成的系统,刻画网络节点重要性对于理解网络结构、演化和其上的动力学过程非常重要。刻画网络节点重要性的指标很多很多。先考虑一个无向简单图。最简单的就是节点的度,等于节点直接邻居的个数。一般而言,我们认为度越大的节点越重要,例如在疾病流行过程和信息传播过程中,如果初始患病者/传播者在网络中度很大,那么疾病或者信息有更大可能在网络中扩散开来。但是,衡量一个节点的重要性,远远不止那么简单。例如,Kitsak等人最近在Nature Physics发文指出,节点度只能刻画节点周围很局部的特征,远远不能描述一个节点在传播动力学中的重要性。Kitsak等人提出可以用节点的核数(coreness)来更好度量节点的重要性。另外一个学者耳熟能详但是在网络科学中应用较少的指标,就是H指数,它度量一个科学家有最多有多少篇论文每篇被引用的次数都不少于这个篇数。

    我们把H指数引进网络中,认为一个节点的H指数如果是h,就说明这个节点有h个邻居,它们的度都不小于h。我们注意到,H指数也是一个很好的度量网络节点重要性的指标,综合表现比度和核数都好。进一步地,我们可以自然地定义一个算子H,它作用在一组实数上,返回一个非负整数,就是这组实数的H指数。这个算子H作用在一个节点所有邻居的度上,就得到了这个节点的H指数。让人惊讶的是,我们发现了一个网络中非常基本的定律,就是把这个H算子继续作用在节点邻居的H指数上,得到H2指数;再作用在H2 指数上,得到H3指数,依次类推。最后,这个值会收敛到核数。

    换句话说,原来非常非常重要,但是看起来各自独立的三个节点度量指标:度、H指数和核数,可以通过一个简单的算子H连接起来,而度、H指数和核数只是一连串作用的初态、中间态和稳态。我们进一步证明,在异步更新的条件下,H算子也会驱动导致这个值唯一收敛到核数,这就使得分布式地计算动态增长网络的核数变得可能。通过对大量真实网络上各种动力学(SIR传播、SIS传播、Percolation等等)的实验表明,H指数,包括H2、H3指数、……、核数(H-family indices)等等,都能够很好地刻画网络的重要性,其中H指数综合表现最佳!

在线链接(可免费下载):

http://www.nature.com/articles/ncomms10168

   [3] Y. Zha, T. Zhou,C.-S. Zhou, Unfolding large-scale online collaborative human dynamics, PNAS 13(2016) 14627-14632.

   排名第三的是一篇辛苦文章!!从开始设计到正式发表,应该有四年时间,简直是夸张!特别佩服昌松兄和一龙的力量,活生生把一个看起来无比困难的问题解出来了——我只能说勉强看懂了这个解析过程,要让我重现一遍,恐怕都万分困难。

   从维基百科、大规模软件开发到软件开源活动,“在线协同工作”已经成为了近年来重要的知识生产方式,其影响力逐年扩大。理解这类在线协同活动背后的机制和规律成了学术界广受关注的热点挑战。为此,我们分析了数百万条维基百科的编辑历史记录,发现了对于一个维基百科的页面,相邻的两次编辑之间的时间间隔服从一个双段幂律分布,即首、尾两部分都可以用幂函数刻画。

   进一步地,我们提出了一个机制模型来解释以上发现,该模型包括三个主要机制:(1)每个编辑者在任何时间都以一定概率独立产生一次编辑,可以用一个泊松过程来刻画;(2)每一次新的编辑行为,都以一定的概率引发新的相关的编辑(间隔时间是幂律的),可以用一个分支过程刻画;(3)编辑者总人数随着时间增长(线性)。我们变态地给出了这一复杂混合过程的解析函数解,并与真实数据高度吻合——解析形式非常恶心,但是渐进行为和中间的值都丝丝入扣!

    这个工作结合了数据挖掘和机制模型,第一次给出了相关问题的解析结果,并可以简单推广并解释一大类具有协同和级联效应的现象,包括软件开发、邮件通讯中出现的标度律,以及地震和余震时间间隔呈现出的标度律。同时,这一工作还直接给出了判别正常维基百科页面与受政治和经济利益驱动而被少数编辑者把控的不正常页面。

在线链接(可免费下载):

http://www.pnas.org/content/113/51/14627.abstract

   [4] B. Li, D. Hao, D. Zhao, T. Zhou, Mechanism Design in SocialNetworks (AAAI Press, 2017).

   这篇论文我把它排到第四位,实际上如果不考虑[3]的辛苦程度,我觉得应该进入三甲!AAAI是个好会,但也就那么回事儿吧。我在没有到计算机学院工作之前,听江湖传言CCF-A会议好像是很牛逼的,后来投过SIGKDD、ICDM、AAAI等等,全部都命中了,也就没有兴致了。倒是很多年前和学旗兄、俊铭兄等人写过一篇WSDM的文章,感觉水平不错。

   但是这篇AAAI的文章,我认为了不得!

   博弈是社会学和经济学中一个关键的模型,相关的经济学诺贝尔奖出了无数。其中,拍卖是博弈中一个经典的场景。拍卖理论中最核心的问题就是机制设计。举个例子,Vickrey-Clarke-Groves(VCG)是拍卖中最著名的机制(也拿了诺贝尔奖),在中国我们一般叫做二高价拍卖,就是说出价最高的人获得拍卖品,但是只需要支付出价第二高的价格——这种机制可以保证,所有人按照自己真实意愿出价是一个稳定的Nash均衡。

   我们要解决的是互联网时代的拍卖问题。一场拍卖会的举行,原则上可能有很多人都对拍卖品感兴趣,但是销售人员能够通知到的人很有限。如果利用社交网络,参与者愿意分享消息,邀请更多朋友参加,那么一下子拍卖的参与者就多了,销售人员有机会用更高的价格卖出去。但是参与者一般是没有积极性这样做的,因为邀请朋友等于增加更多的竞争者。我们设计了一种分配收益的方法,也就是说,销售人员获得的超额利润会在邀请到最后胜出者的参与者A,邀请参与者A的参与者B……等等所有链条上的贡献者中进行分配。这个分配机制可以保证每个人邀请自己社交网络中的所有好友参加拍卖并提交自己的真实意愿是一个稳定的Nash均衡。

   这个问题的解决非常重要,特别在社会化分享成为主流的现在,它也可能是更广泛意义下的任务众包,社交拍卖,多层次直销等行为的理论基础。未来我们会围绕这个问题开展一系列深入的理论分析和实验研究。

AAAI-2017会议链接(尚未正式召开)

http://www.aaai.org/Conferences/AAAI/aaai17.php  

[5] L. Lu, D. Chen, X.-L. Ren, Q.-M.Zhang, Y.-C. Zhang, T. Zhou,Vital nodes identification in complex networks. Physics Reports 650 (2016)1-63.

   

   这篇文章很可能会成为2016年我所有论文中未来影响力最大的,它的引用几个月就到了12次,而且来自R. Pastor-Satorras, C. Castellano,M. A. Portor, G. Bianconi, R. Lambiotte, F. Radicchi等青年豪杰。写综述是很美好的感觉,因为既在销售自己的东西,又在学习,写完综述等于是对一个大方向重新检阅和思考一遍。不过综述本身并没有新发现的激动,多以我把它排到第五。

   关键节点识别是网络科学领域的研究重点和热点。由于真实网络的异质性,节点在网络结构和功能上发挥的作用差异巨大。关键节点就是那些能够在更大程度上影响网络的结构与功能的一些特殊节点。准确发掘出网络中的关键节点,可以帮助我们更好地控制信息的传播、抑制疫情的爆发、精准投放商品广告、预测热门研究成果、发现重要致病基因等等。关键节点识别问题吸引了计算机科学、物理学、社会学等领域科学家越来越多的关注,相关算法包含了从简单地计算最近邻居数,到复杂的机器学习方法和基于信息传播理论的复杂算法。本文系统地综述了关键节点排序方法,并用真实网络数据做实验,比较了主流算法的优劣。

  《Physics Reports》是国际物理科学和交叉科学类最具影响力的国际期刊之一,专门发表该领域各研究方向全球知名专家撰写的综述性论文,对相关领域的发展具有非常重要的引领和指导作用。《Physics Reports》不接受自由投稿,全部由杂志编辑邀约在相关领域做出突出贡献的研究课题组撰稿,该期刊最近五年的平均影响因子为22.124,是物理领域最具盛名的顶尖期刊之一。

在线链接http://www.sciencedirect.com/science/article/pii/S0370157316301570





文章原载于作者的科学网文章,所述内容属作者个人观点,不代表本平台立场。
本文经过系统重新排版,阅读原内容可点击 阅读原文