最近,张千明,尚明生和曾安在PLoS ONE发表论文“Extracting the information backbone in online system”,文中提出信息骨架的概念以及在线系统(如社交网络和电子商务系统等)中抽取信息骨架的方法,有助于提升大数据时代的在线系统的处理效率和服务质量。
推荐系统不仅是信息爆炸时代解决信息过载问题的有效方法,还能主动发现用户“想要”但“未知”的信息,其中“想要”对应着准确性,“未知”对应着新颖性或者多样性。几乎所有的在线系统都集成了推荐引擎,例如电子商务平台亚马逊、淘宝网,社交网站facebook、人人网,以及微博、微信等等。推荐系统基于用户前期的行为来推测用户可能感兴趣的信息,通常认为用户的历史记录越多,对其描述就越准确,从而对其需求的预测就越好。该文发现用户的早期行为非但不会增强反而会降低推荐结果的准确度和多样性,而用户选择流行商品的行为甚至也会起到负面的作用。文中分别提出了基于时间和拓扑结构的两类策略试图移除冗余甚至是有误导性的用户行为信息,发现基于时间的策略在保持推荐准确度方面更有优势,而基于拓扑结构的策略则更能加强推荐的多样性。论文综合这两种因素,在保证准确度和最大化多样性的条件下提取并分析了对于信息推荐功能最有效的网络结构,也就是推荐网络的信息骨架。文中提取出的骨架信息网络仅仅涵盖了原始网络中的很少一部分信息(分别是Netflix数据集的28%和Movielens数据集的20%)。
论文在理论和应用上都具有一定价值。在理论上,其结果不仅提供了一个提升推荐质量的新方向,而且对于认识网络结构对于功能的影响,或者更一般地,对大数据时代抽取解决特定问题的高质量有效数据的方法具有借鉴意义;在实践中,其结果可以极大地降低大规模数据所带来的计算复杂性,低碳节能地为用户提供更好的服务。
论文信息:Zhang Q-M, Zeng A, Shang M-S (2013) Extracting the Information Backbone in Online System. PLoS ONE 8(5): e62624. doi:10.1371/journal.pone.0062624