这个项目是07年底拿到的,是一个只有二十多万,两年时间(2008-2009)的小项目。说来有趣,07年的时候张翼成老师向汪秉宏老师和我介绍了利用物理方法研究信息系统的思路,之前我们组的任捷已经跟随张老师作了一些前期的研究工作。我在07年3月-6月到弗里堡访问了3个月,因为张老师的指导,和任捷、Matus的帮助(他们比我对这个问题接触更早认识也更深刻),我在那三个月参与合作了两篇论文,后来发表在EPL和PRE上面,分别是张老师和我担任第一作者。那个时候我对统计物理方法在信息系统研究中的宏观图景没有任何整体认识,但是对于推荐系统这个具体的研究问题产生了一点感觉,于是向汪老师建议提交一个这方面的申请书——这实际上是要冒很大风险的,因为我们组这方面的前期工作和积累很少,不像复杂网络,申请不中都没有道理!汪老师很支持,于是才有了这个项目。
项目是以信息学部主任基金的形式批准的。李德毅老师是信息学部的主任,汪老师向他介绍了我们的申请内容,他表示支持。适逢后来在上海理工大学召开第三届全国复杂网络学术会议,会议第二天上午安排了五个大会报告,我的报告在李老师后面,讲的就是我们想做的内容。会后李老师问了几个问题,对于我们用物理学的方法研究信息科学中的问题有一定兴趣。我那个时候对这个方向是有憧憬,但是也没有信心,我记得李老师问了一个比较尖锐的问题:“你们的研究中最根本的科学问题是什么?”我不记得当时是如何回答的了,但是这个问题当时我心中肯定是没有清晰答案的——即便现在,也最多只能有一个描述性的轮廓!
两年多过去了,结题的时候看该基金参与支持下的22篇论文,觉得相对于这个基金的时间和支持强度而言,答卷应该还是优秀的。这里的一点成绩要归功于张老师和汪老师的指导,以及刘建国、尚明生、吕琳媛、张子柯的合作研究。他们不仅是工作上的好伙伴,也是我最好的一群朋友!和他们一起工作,本身就是一种很愉快的生活。
国家自然科学基金委信息科学部主任基金 (项目批准号: 60744003)《动态评价网络的统计分析与信息挖掘》(2008-2009)项目的结题报告之中文简介
-----10
篇代表性论文------
[1] 刘建国,周涛,汪秉宏
个性化推荐系统的研究进展
自然科学进展,2009年1月,第19卷,1-15页
该文根据推荐算法的不同,分别介绍了协同过滤系统,基于内容的推荐系统,混合推荐系统,以及最近兴起的基于用户—产品二部图网络结构的推荐系统.并结合这些推荐系统的特点以及存在的缺陷,提出了改进的方法和未来可能的若干研究方向。推荐系统的研究受到了信息科学、计算数学、统计物理学、认知科学等多学科的关注,它与管理科学、消费行为等研究也密切相关。此文能够为不同学科领域的科研工作者研究推荐系统提供借鉴,有助于我国学者了解该领域的主要进展,也是本项目最重要的一篇总结性论文。
[2] 刘建国,周涛,郭强,汪秉宏
个性化推荐系统评价方法综述
复杂系统与复杂性科学,2009年9月,第6卷,1-10页
该文根据推荐系统任务的不同,介绍了不同的准确性度量指标以及各自的优缺点;介绍了准确度之外的其它指标,例如推荐多样性、覆盖率等;指出了目前评价指标存在的缺陷,以及未来可能的改进方向。是本项目研究重要的总结性论文。
[3] Matus Medo, Yi-Cheng Zhang, Tao Zhou
Adaptive model for recommendation of news
Europhysics Letters 88 (2009) 38005
最近的一些大规模实证研究显示,信息推荐中社会关系往往比推荐内容与用户喜好的匹配程度更加重要。事实上,用户更喜欢来自朋友而非来自系统的推荐。因此,社会过滤(social filtering)被认为极有可能成为下一代信息过滤器(搜索引擎、推荐系统……)的核心之一。该文以Web 2.0系统中新闻共享和推荐为例,提出了基于适应性网络的一种社会过滤机制,该机制能够明显提高用户体验。L’Atelier对文章作者进行了专访,并在L’Atelier Report中对该文进行了专题报道。
[4] Tao Zhou, Linyuan L
ü
, Yi-Cheng Zhang
Predicting missing links via local information
European Physical Journal B 71 (2009) 623
基于网络的链路预测自08年Clauset等人发表Nature论文之后成为复杂网络与信息挖掘方面研究的共同热点。动态评价网络的信息挖掘本质上是二部分网络上的链路预测。该文提出了两种基于局部信息的相似性指标——资源扩散指数、局域路径指数,通过和9种广为人知的局部相似性指标再6种不同真实网络中进行比较,文章指出新提出的两种指标明显具有更好地刻画节点相似及相近程度的能力。文章提出后立刻受到了广泛的关注,已经有其他三个研究团队跟踪讨论了资源扩散参数在信息推荐、有向网络链路预测和社区结构挖掘方面的应用。这些结果均证明了该文提出的指数具有明显优于已知局部参数的性质。
[5] Zi-Ke Zhang, Tao Zhou, Yi-Cheng Zhang
Personalized recommendation via integrated diffusion on user-item-tag tripartite graohs
Physica A 389 (2010) 179
协同标签系统最近几年非常流行,其基本思想是允许用户自由添加一些关键词(标签)来描述自己收藏的各种资源。这些标签一方面反映了用户的个人喜好,另外一方面可以看作对所标记资源的一种非常精简的内容描述。该文首次尝试将这些信息整合到基于物质扩散的推荐算法中,并且在精确性和多样性方面均取得了非常明显的提高。此文推动了一系列后续的基于标签的信息挖掘研究。
[6] Tao Zhou, Luo-Luo Jiang, Ri-Qi Su, Yi-Cheng Zhang
Effect of initial configuration on network-based Recommendation
Europhysics Letters 81 (2008) 58004
该文通过考虑基于物质扩散的信息推荐算法中初始物质分布的精细结构,提出了一种改进的算法,此算法相比原始算法,能够将精确性提高
10%左右。该文的真正重要的价值在于首次明确提出了基于用户-资源的二部分网络结构,如何对推荐的多样性和新颖性进行度量。尽管相应的度量指标尚较粗糙,但却是后面关于信息多样性的一系列研究的初始。
[7] Tao Zhou, Zoltan Kuscsik, Jian-Guo Liu, Matus Medo, Joseph Wakeling, Yi-Cheng Zhang
Solving the apparent diversity-accuracy dilemma of recommender systems
PNAS doi: 10.1073/pnas.1000488107
该文章明确指出传统意义上的信息推荐算法具有“过度强调精确性而忽略多样性”的缺点,而信息提供者的价值“往往更多地源于提供多样和新颖的信息”。该文第一次系统研究了仅知道网络拓扑结构的情况下如何考量推荐算法的多样性和新颖性,这对于该方向的研究起到了基础性的作用。文章还开创性地提出了一种专门推荐“不太流行的冷门资源”的基于热传导的算法,该算法与所有已知的均倾向于发掘“流行资源”的算法大异其趣。文章通过大量基于真实数据的分析,显示了此算法与基于物质扩散的算法结合后,可以同时明显提高推荐系统的准确度、多样性和新颖性。这一发现有望推动甚至最终解决推荐系统中精确性与多样性鱼和熊掌不可兼得之难题。
[8] Linyuan L
ü, Tao Zhou
Link Prediction in weighted networks: The role of weak ties
Europhysics Letters 89 (2010) 18001
该文是本项目迄今为止发表的最为有趣的一篇论文!尽管复杂网络中的链路预测问题不乏讨论,但是对于含权网络的讨论较少。一种直观的想法是权重较大的链路在预测中起到决定性的作用,该观点也被最近基于一个问答系统的实际分析所验证。与其观点相反的是,该文作者发现大部分网络中权重较小的链路反而起到了更关键的作用。作者通过一种“模块统计分析”的方法给出了如何预先判断该网络中权重大小与链路预测能力强弱关系的方法。尽管“弱连接理论”声称在维持网络连通能力和稳定性方面权重较小的链路更加重要,但是在信息挖掘领域,该文是第一次强调了弱链接的重要性,从而从根本上质疑了含权网络链路预测的直观理念和已知结果。
[9] Jie Ren, Tao Zhou, Yi-Cheng Zhang
Information filtering via self-consistent refinement
Europhysics Letters 82 (2008) 58007
该文提出了一种自洽的迭代框架。只要一种推荐算法能够表达为一个矩阵算子对于用户-资源关联矩阵上的操作,该算法就可以通过迭代寻优的方式提高原算法的精确性。这个方法已经被证明对于协同过滤和矩阵分解是适用的。
[10] Tao Zhou, Ri-Qi Su, Run-Ran Liu, Luo-Luo Jiang, Bing-Hong Wang, Yi-Cheng Zhang
Accurate and diverse recommendations via eliminating redundant correlations
New Journal of Physics 11 (2009) 123008
该文指出从不同渠道得到的对于同一个对象的推荐信息有可能包含着严重的冗余!如何去除这种可能存在单又无法直接检验的冗余信息是一个新的挑战。文章设计了一种利用二阶关联的方式,能够简单快速的去除可能的冗余信息。在基于物质扩散的推荐算法框架下,该文提出的方法能够将精确性提高20%到30%,所得到的结果是目前本项目所有工作中最为精确的,甚至超过了名噪一时的LDA算法。
------
其他相关论文------
[11] Zi-Ke Zhang, Linyuan L
ü, Jian-Guo Liu, Tao Zhou
Empirical analysis on a keyword-based semantic system
European Physical Journal B 66 (2008) 557
本文讨论了学术期刊中关键词出现的统计规律。该文与信息挖掘没有直接联系,却是第一次尝试关注和分析标签系统,为后来一系列利用标签信息进行信息挖掘的工作奠定了基础。
[12] Chun-Xia Jia, Run-Ran Liu, Duo Sun, Bing-Hong Wang,
A new weighting method in network-based recommendation
Physica A 387 (2008) 5887
该文提出了一种通过加权提高信息推荐精确度的方法,是
07年本组一篇PRE论文的跟踪研究。
[13] Run-Ran Liu, Chun-Xiao Jia, Tao Zhou, Duo Sun, Bing-Hong Wang
Personal recommendation via modified collaborative filtering
Physica A 388 (2009) 462
该文考虑了协同过滤中初始权重的问题,是文献
[6]的跟踪研究。
[14] Jian-Guo Liu, Michael Zhi-Qiang Chen, Jian-Chi Chen, Fei Deng, Hai-Tao Zhang, Zi-Ke Zhang, Tao Zhou
Recent Advances in Personal Recommneder Systems
International Journal of Information and Systems Sciences 5 (2009) 230
该文是一篇邀请综述,总结了个性化推荐系统研究的一些最新进展。
[15] Duo Sun, Tao Zhou, Jian-Guo Liu, Run-Ran Liu, Chun-Xiao Jia, Bing-Hong Wang,
Information filting based on transferring similarity
Physical Review E 80 (2009) 017101
该文提出了一种自洽的相似性指标,其基本思想是相似性可以在节点间转移,简而言之就是A和B相似,B和C相似,则A和C很有可能也比较相似。该算法大幅度提高了Pearson相似性指标的推荐精确度。
[16] Linyuan L
ü, Ci-Hang Jin, Tao Zhou
Similarity index based on local paths for link prediction of complex networks
Physical Review E 80 (2009) 046122
该文细致研究了局部路径指数在链路预测中的作用,是文献[4]的跟踪研究。
[17] Ming-Sheng Shang, Linyuan L
ü, Wei Zeng, Yi-Cheng Zhang, Tao Zhou
Relevance is more significant than correlation: Information filtering on sparse data
Europhysics Letters 88 (2009) 68008
该文的试验结果显示,在稀疏系统(绝大部分真实系统都非常稀疏)中,是否有关系比打分高低更重要,换句话说,对于用户而言,对一个对象打低分不能简单理解为用户憎恶这种类型的对象。事实上很可能是爱之愈切,要求愈高造成的。该文发现,抹去所有分数信息得到的推荐结果,比考虑分数之间的Pearson关联得到的推荐效果更好!该结果推翻了根深蒂固的传统看法并对绝大部分传统算法提出了挑战。因为不考虑分数信息计算更加快捷,该方法有很好的应用前景。此文系本项目中第二有趣之论文!
[18] Ming-Sheng Shang, Ci-Hang Jin, Tao Zhou, Yi-Cheng Zhang
Collaborative filtering based on multi-channel diffusion
Physica A 388 (2009) 4867
该文提出了针对打分系统的多道推荐算法,是07年本组发表的一篇PRE和一篇EPL论文方法的结合和推广。
[19] Jian-Guo Liu, Tao Zhou, Bing-Hong Wang, Yi-Cheng Zhang
Effects of User
’s Tastes on Personalized Recommendation
International Journal of Modern Physics C 20 (2009) 1925
该文考虑了用户的喜好对推荐结果的影响,有望推动形成更加个性化的推荐算法,实现从推荐结果的个性化到推荐算法的个性化的思想上的重大转变。
[20] Jian-Guo Liu, Tao Zhou, Bing-Hong Wang, Yi-Cheng Zhang, Qiang Guo
Degree Correlation of Bipartite Network on Personalized Recommendation
International Journal of Modern Physics C 21 (2010) 137
该文通过考虑度度关联提出了一种改进的推荐算法。
[21] Jian-Guo Liu, Tao Zhou, Hong-An Che, Bing-Hong Wang, Yi-Cheng Zhang
Effects of high-order correlations on personalized recommendation for bipartite networks
Physica A 389 (2010) 881
该文通过考虑高阶关联提出了一种改进算法,是文献[10]的跟踪研究。
[22] Ming-Sheng Shang, Zi-Ke Zhang, Tao Zhou, Yi-Cheng Zhang,
Collaborative filtering with diffusion-based similarity on tripartite graphs,
Physica A 389 (2010) 1259
该文考虑了用户-对象-标签三部分图上的物质扩散算法,是文献[5]的跟踪研究。