师说 | 网络名师博客群 of 电子科技大学

结识新朋友，不忘老朋友-社交网络推荐研究进展

周涛 | 2011-06-21 | 科学网 | 919次阅读

《Make new friends, but keep the old》简述

全名：Make new friends, but keep the old: recommending people on social networking sites

作者：Jilin Chen, Werner Geyer, Casey Dugan, Michael Muller, Ido Guy

发表于：

CHI ’11: Proceedings of the 27th international conference on Human factors in computing systems

ACM New York, 2009

ISBN: 978-1-60558-246-7 doi > 10.1145/1518701.1518735

整理人：张千明

主要研究内容：

在线社交网络中，人们可以加别人为朋友，也可以关注别人成为他的粉丝。本文在一个企业社交网络Beehive上应用不同的推荐策略，并比较了这些方法的优劣，发现：使用基于社交网络信息的方法能够得到“被用户认为更好的推荐”，为用户找到更多的他认识的人；而基于用户发表内容相似性的方法则更倾向于为用户推荐“新朋友”（陌生人）。作者采用跟踪用户行为和调查问卷的方式对推荐结果进行评测分析，主要关注以下两个问题：

1) 不同的推荐方法有多有效？他们在推荐“潜在朋友”的时候，在推荐“认识的人”与“陌生人”之间有何区别？

2) 推荐朋友关系对于增加用户的朋友数目是否有效？影响推荐效果的因素是什么？

数据信息：

Beehive于2007年9月在IBM内部正式启动，被定义为“企业社交网络”（an enterprise social networking）。与其他社交网络类似，用户可以标记朋友，设置状态信息，共享、评论照片和发表的消息等。截止2008年7月（作者获取实验数据之时），Beehive拥有超过38000个用户，且每个用户平均拥有8.2个朋友。需要指出，这里的“朋友关系”没有强调必须是相互的：如果u将v当作自己的朋友，那么有u→v，但不一定存在v→u。

推荐策略：

a) Content matching

基本假设：如果两个人发表相同或类似的话题，这两个人可能有兴趣认识对方。

从用户的属性信息和状态信息中提取关键词，比如标题、描述、标签等等，于是每个用户都有一个由关键词（由TF-IDF^[1]确定权重）组成的向量，然后用余弦相似度指标衡量两个用户之间的相似性。

[1]. Salton, G & Buckley, C. 1988. "Term-weighting approaches in automatic text retrieval". Information Processing & Management 24 (5): 513-523.

b) Content-plus-Link ( CplusL )

在内容匹配的基础上，考虑互惠关系。也就是说，如果两个用户u和v之间基于内容匹配的相似度为s1，而且如果他们之间满足下面三种关系的一种：

(1) u→v

(2) u评论过v

(3) v→u

那么他们之间相似度的值就增大50%。

c) Friend-of-Friend (FoF)

单纯应用社交网络信息的方法，即关注朋友的朋友：如果我有很多朋友都把A标记为朋友，那么我可能也有兴趣把A当作朋友。

d) SONAR

基本假设：在别的关系网中存在的关系，在微博中出现的可能性也较大。

SONAR是IBM内部的一个系统：它将多个不同数据源公开的社交信息集合到了一起。本文使用了其中的七个不同数据源公布的数据：(1) organizational chart (2) publication database (3) patent database (4) friending system (5) people tagging system (6) project wiki (7) blogging system

实验部分：

本文进行了两个实验，分别叫做Personalized survey 和 Controlled field study，下面分别进行说明。

实验一、Personalized survey

实验中，作者邀请了500位活跃用户，每个用户都有来自四种推荐策略的推荐结果，为了保证试验数据的充分性，需满足以下条件：

a) 用户必须是在调查开始之前的一个星期之外就已注册的

b) 在Beehive里有充足的数据可用

c) 发表的内容中至少有5个词，且至少有3个leader

这样做的目的是要保证对每个用户对于每个算法都至少有10个推荐对象，这样才能进行有效的对比。表1（Table 1）列出了基于不同算法得到的top-10推荐对象之间的重合比例，可以看出它们的区分度还是比较高的（除了基于内容的两个方法）。

基于四种推荐方法，以及这500个目标用户，作者为用户的每一个推荐准备了调查问卷：

在这500个用户中，有415位参与了跟踪调查，但仅有258位用户提交了调查结果，但符合要求的（对于每一个算法都至少有一个有效的回馈信息）仅有230份结果。

作者调查了用户对于推荐的看法，其中95%的用户认为推荐有用；同时也调查了Beehive中的用户是否对于建立“弱连接”感兴趣并是否愿意认识新朋友，61.6%的用户表示愿意认识新朋友，31%的用户不确定而7.4%的人果断说不。然而，对于推荐“陌生人”的有效性调查，有75.2%的用户愿意接受通过“共同朋友”的推荐，74.4%的用户接受基于“相同内容”（图片、兴趣等等）的推荐，39.2%的用户接受基于“地理临近”的推荐，27%的人接受基于“IBM部门划分”的推荐，还有14.5%的用户选择了“其他”（比如工作/商业领域——拥有共同的客户，技能/专业技术等的推荐）。

但是实验结果是怎样的呢？如图1（Figure 1）：

中间的分界线（黑色实线）以上代表“在推荐结果中，用户认识的人所占的区域”，分界线以下就表示“在推荐结果中，用户不认识的人所占的区域”。绿色区域表示“被用户认为是满意的推荐”，橙色区域则表示“用户认为不满意的推荐”。

首先，基于内容的推荐更倾向于推荐“陌生人”，倾向于推动用户去认识新的朋友，而随着“社交网络信息”（也可以当作结构信息）的越来越丰富，推荐结果中属于用户“认识的人”的比例大幅上升。但是，用户对于“陌生人推荐”的满意度非常低，而对于“认识的人”的满意度则非常的高，而且在“被认为满意的推荐结果中”，基于SONAR以及FofF的推荐仍然占主要地位，如图2（Figure 2）。

基于这些结果可以得出，当一个算法推荐的“陌生人”越多，人们拒绝接受他们成为朋友甚至不喜欢这个推荐算法的可能性也就越大。作者调查发现，拒绝的原因有时候仅仅是由于同一个原因“I’d prefer to know them before being introduced to another stranger in the same city,” and “I generally want to know someone at least by reputation or interaction before making a connection”。也就是说，当推荐一个陌生人的时候，需要一个有说服力的推荐理由：或者是之前你们已经有所联系，或者是他在××领域具有较高的影响力，等等。当然，基于内容的推荐也不总是坏的，也能有一些比较让人眼前一亮的推荐：“good find, I'll comment on his favorite music hive5” and “Connected to lots of the same folks; I should know her”。

原文第6~8页中的斜体部分列出了很多用户的反馈信息，其中既有用户的建议，也包含用户给出的满意或者不满意的理由——这些信息可以作为我们改进推荐的参考依据。挑选几条如下所示：

a) 共同关键字吸引我去看他的信息，我们虽然有一些共同的兴趣爱好，但这并不足以让我加他好友，至少现在是这样；

b) 仅用一个关键词的推荐并不可靠；（用户信息不完善）

c) 我与那五个双向连接其实并不很亲密；（关系的强度不同）

d) 由于相互关联的强度，我感觉这可能是一个好的推荐，但我目前这个时候就是不想选择他；（还是缺乏理由，或者不合时宜）

e) 推荐不要仅限于tag，要趋于多维度化；（推荐理由缺乏说服力）

f) 我已经有一个比较大的社交圈子，维系现有的联系已力不能及，对新的链接定要谨慎；（顿巴数）

g) 除非有私人关系或者迫不得已的理由，我不会去连向一个经理；

文中还有很多相关信息，还有一个值得提及的就是social recommendation，用户也有反馈说，“如果我认识的人帮我推荐，我可能会喜欢”，就像LinkedIn中的一样。

实验二、Controlled field study

在这组试验中，选取3000个用户并随机分成五组，分别对应五种策略（其中四组对应四种推荐方法，最后一组不干涉），每组用户只接收到其对应推荐算法给出的推荐对象。这个试验中，每次只为用户推荐一个其他用户，同时列出被推荐用户的照片、工作、工作地点以及推荐算法给出的信息。对于每个推荐，用户可以选择”connect to this person”、”ask to be introduced”和”not good for me”，然后刷新推荐。（虽然有这些选项，但是试验中并没有提及到“学习”的过程）

在3000个用户中，仅有1710个用户参与了实验，其中620个用户响应了7451个推荐：122个用户属于content matching小组，131个属于content-plus-link小组，157个属于friend- of-friend小组，210个属于SONAR小组。表2（Table 2）给出了这四个小组中，分别引发“连接行为”的推荐的比例。