最近读了Barabasi小组2013年在Science上发表的论文《Quantifying long-term scientific impact》。这是一个并不复杂但是很优雅简洁的工作。我想很多人都能想到这个工作的起点,甚至得出同样的模型,但是能够最终做到这篇论文的水平,是很困难的。
Barabasi小组的出发点是研究一种能够预测一篇论文乃至一个期刊长期影响力的方法——这个方法不是抽取若干特征之后的一个机器学习模型,而是一种能够揭示论文产生影响力的机制的方法。文章指出了当前所使用的基于影响因子和H-指数的方法所存在的四个缺陷(这篇文章的布局有点类似于2012年Barabasi小组在Nature上的论文《A universal model for mobility and migration patterns》):(1)期刊的影响因子无法衡量论文的长期影响力,因为在同一期刊同时发表的论文,10年以后累积被引用的次数相差惊人;(2)当前累积引用次数无法衡量论文的长期影响力,不仅是因为累积引用偏向于老文章,而且5年内获得同样引用的论文在接下来的时间段的引用次数差异依然非常大,可见这个指标没有预测能力;(3)特别重要的与主流区别明显的创新型发现早期往往得不到认可,从而使得早期引用次数对于发现那些特别重大影响力的论文没有太大参考价值;(4)公平比较在不同期刊、时间段、学科方向发表的论文非常困难。
为了解决以上问题,Barabasi小组提出了一个机制模型。模型的三个要素都是老生常谈:(1)优先连接;(2)老化;(3)适应度。分别来自Barabasi和Albert 1998年Science的论文,Medo, Cimini和Gualdi 2011年的PRL论文,以及Bianconi和Barabasi 2001年的EPL论文。这三个要素被认为是各自独立的(从实证上都很好剥离并且验证了,这非常重要,具体技巧请参见论文),所以模型也非常简单乘在一起。
解出相应的率方程没有太大的困难,可以看出一个比较复杂的练习题,但是后面精彩纷呈。
首先,Barabasi小组基于解析结果的分析,指出一篇论文的终极影响力(在整个生命周期获得的引用总和)只和适应度有关,而且是基本正比于exp(lambda)这个关系,其中lambda是适应度。这就提供了一种通过前期引用拟合适应度参数,并且跨期刊比较论文最终影响力的可能性。他们在Cell, PNAS和PRB三个期刊选出了一些适应度都为1的论文,发现这些文章最终的影响力都在51左右(钟型分布,峰值在51),但是Cell引用先多后少,PRB先少后多。
其次,Barabasi小组把基于文章的分析推广到期刊上,给出了度量一个期刊长期影响力的量化方法,并且用这种方法很好分析了《新英格兰医学杂志》和《细胞》影响因子和影响力的变化(细节请参考论文)。
最后,文章对比了机制模型和Gompertz模型、Bass模型、Logistic模型的预测结果,发现本文呢远胜其他。
总结一下,本文模型虽然简单,解析也没有特别障碍,但是其论证的严谨性、图和文字的优美性,娓娓道来的文章结构和翔实的真实数据支撑(PR系列+其他12种著名期刊数据),都让人阅读后有一种快感。文章最后也指出了本文的研究结果有助于改变现行的对期刊评价的方法。
看完之后觉得这个方向很难做出那么出色的工作了,晕!