以下是给谢幸老师团队新书《推荐系统:前沿与实践》的序,强烈推荐这本书。
----
2020年全球数据总存储量超过了40ZB,预计在2025到2026年间,这个数字会达到200ZB。面对如此巨量的数据,大数据时代的第一个挑战,就是如何解决信息过载的问题,也就是如何帮助用户在信息海洋中找到他需要或者喜欢的内容。我们经历过不同类型的“信息中介”,导航网站(如hao123)、门户网站(如搜狐新闻)、搜索引擎(如百度)……还有本书要介绍的推荐系统。读者可能会觉得搜索引擎在我们获取信息方面扮演了最重要的角色,实际上,绝大部分我们被动获取或者看似主动实际被动获取的信息都来自于推荐系统,而这些信息占据了我们互联网信息获取中的最大份额。举个例子,尽管我们有时候也会在抖音、快手和小红书上浏览关注对象的视频,但是大部分时候,当我们滑屏之后,新的视频都是来自推荐系统的。我们可能以为长视频的观看都来源于对自己兴趣的准确把握和对内容的主动定位,其实Netflix上2/3以上的点击来自于推荐,爱奇艺上1/2以上的点击来自于推荐。体量更大的还有今日头条的新闻推荐、淘宝的商品推荐……我们其实一直被推荐系统仅仅包裹,只是这层包裹很柔软,我们往往并不自知。
读者手头这本书,就是从理论、方法到实践,系统介绍推荐系统这一信息海洋最重要导航者的专著。这本书的作者是该领域蜚声国际的大学者。不得不说,针对推荐系统,已经有了很多高质量的综述论文和专著,但它们各自存在局限性。大部分综述只集中于一类方法(例如Adomavicious和Tuzhilin主要聚焦于协同过滤[1],我们的综述主要聚焦于物理学的方法[2])或者只深入讨论某一个问题(例如Herlocker等人的综述主要关注如何评价一个推荐系统[3])。Ricci等人编写了一本名为《推荐系统手册》的书[4],影响力很大,但其实是若干专题性综述的汇编,没有在同一套语言和符号系统中由浅入深展开叙事,因此只适合很专业的研究人员。项亮的《推荐系统实践》[5]是从业者的入门和实战宝典,但理论方面的笔墨不多。与此同时,推荐系统自身的发展速度很快,原来以协同过滤、矩阵分解等为代表的单算法,已经无法应对现在的大规模推荐系统。事实上,现在主流的推荐系统框架中,深度学习和特征工程已经扮演主角[6],原来不可一世的单算法(例如基于用户和基于商品的协同过滤)已经退化成了前沿推荐系统框架中若干召回算法中不起眼的成员。所以,一些较完整的译著,距离推荐系统的实战前沿技术,也比较远了。总的来说,这是一本“来得恰到好处”的推荐系统著作,兼顾了理论性和实践性,包容了经典算法和前沿方法。
我和推荐系统有很深的缘分。2007年我到瑞士弗里堡大学读博士,张翼成教授与我合作的第一个题目就是推荐系统,后来推荐系统和链路预测成了支撑我博士论文的两个主要方向。回国后我参与创立的第一家企业[7]最初的业务就是为电子商务网站开发推荐系统。我老婆有很长一段时间也是从事推荐系统的实战工作,并作为主要负责人构建了爱奇艺的推荐系统。我和她有一个重要的共同经历,就是都曾在谢幸老师的指导下从事位置分析和推荐系统的工作。我和谢幸老师一共合作过四篇论文[8],其中有三篇都是有关如何为用户推荐他/她可能感兴趣的位置,这也是我真正有机会系统考虑如何推荐位置,以及一个相关的问题,如何利用位置信息推荐内容。
尽管已经经历了近三十年的发展,推荐系统的研究依然充满活力,很大程度上是因为推荐系统主宰了我们获取信息活动的很大一个份额,而获取信息又是现代人生活学习中特别重要的组成部分。除了刚才提到的深度学习框架的应用,最新的技术发展又提出了若干新的挑战,例如如何在多媒体环境中更好设计推荐系统[9](与目前流行的多模态学习也密切相关),如何融入专家知识构建具备“认知能力”的推荐系统[10],如何在隐私保护的前提下设计推荐系统[11],等等。在大数据概念热火朝天的时候,美国网络安全和新兴技术局(CSET)发布报告建议重新重视小数据下的人工智能应用[12]。在稀疏和不充分数据条件下,如何设计推荐系统,也是一个重大的挑战,其中谢幸老师团队最近针对基于知识图谱的推荐系统的研究,为这个问题指明了一个可能的解决方案[13]。我最近在推荐算法方面研究较少,又反过来关注推荐系统的伦理问题,例如如何避免过度个性化让我们视野变得狭窄,甚至陷入信息茧房中[14]——这实际上是我博士阶段工作的自然延续[15]。
可以说,推荐系统是一个科学问题、技术问题和产业实践无缝结合的充满活力的领域,而谢幸老师的团队既是该领域全球领域的研究团队,又因为身在微软,而对产业需求非常敏锐!希望各位读者都能从本书中有所得。
以为序。
[1] G. Adomavicius, A. Tuzhilin, Toward the next generation of recommender systems: A survey of the state-of-the-art and possible extensions, IEEE Transactions on Knowledge and Data Engineering 17 (2005) 734.
[2] L. Lü, et al., Recommender systems, Physics Reports 519 (2012) 1.
[3] J. L. Herlocker, et al., Evaluating collaborative filtering recommender systems. ACM Transactions on Information Systems 22 (2004) 5.
[4] F. Ricci, et al., Recommender Systems Handbook, Springer, 2011.
[5] 项亮,《推荐系统实践》,人民邮电出版社,2013.
[6] 王喆,《深度学习推荐系统》,电子工业出版社,2020.
[7] 现在叫百分点集团,那时候叫百分点科技。当时我们的商业出发点可以参考我们早期的一本书:苏萌,柏林森,周涛,《个性化:商业的未来》,机械工业出版社,2012.
[8] 2015年为IEEE Data Eng. Bull.写过一篇题为“Mining Location-based Social Networks: A Predictive Perspective”的短综述;同年在ICDM会议上发表了一篇位置信息的论文“Content-aware collaborative filtering for location recommendation based on human mobility data”;2017年在Physica A上合作写了一篇通过空间轨迹数据分析一个人本地化程度的论文“ Indigenization of urban mobility”,这个本地化程度指标可以用于感兴趣的地理位置的推荐;2018年在IEEE TKDE上发表论文“Scalable Content-Aware Collaborative Filtering for Location Recommendation”介绍了一个性价比很高的位置推荐算法。
[9] Y. Deldjoo, et al., Recommender systems leveraging multimedia content, ACM Computing Surveys 53 (2020) 1.
[10] A. Beheshit, et al., Towards cognitive recommender systems, Algorithms 13 (2020) 176.
[11] V. W. Anelli, et al., Pursuing Privacy in Recommender Systems: the View of Users and Researchers from Regulations to Applications, 15th ACM Conference on Recommender Systems, ACM Press, 2021, p. 838-841.
[12] CEST, Small Data’s Big AI Potential, 2021 (可从CSET网站上直接下载).
[13] Q. Guo, et al., A Survey on Knowledge Graph-Based Recommender Systems, IEEE Transactions on Knowledge and Data Engineering (in press).
[14] L. Hou, et al., Information Cocoons in Online Navigation, arXiv: 2109.06589.
[15] T. Zhou, et al., Solving the apparent diversity-accuracy dilemma of recommender systems, PNAS 107 (2010) 4511.