师说 | 网络名师博客群 of 电子科技大学

个性化推荐猜你心 [好运M+2012年第三期]

周涛 | 2012-03-08 | 科学网 | 804次阅读

比科普还科普的讲解，不过很清楚~~

有趣的是，还提到了我的一个“认为”，这原初是2010年我们做的一篇EPL的文章，后来2011年张成军和曾安得到了更清晰的结论，发表在Physica A上面——新老用户行为模式不同（当然不象文章讲的那么简单，但是意思总体上差不多），用户面对不同类商品行为模式也不同（高风险和低风险购物行为迥异）~~

不过文章这样说，感觉好像采访过我或者交流过，实际上完全没有！但是我不反对这种说法~~

和讯链接 http://tech.hexun.com/2012-02-17/138380430.html

------------------------------------------------------------

个性化推荐猜你心

个性化推荐已悄无声息地成为网站拉拢用户的必备利器。

　　MONEY+记者｜王茹芳

　　Dr. S，喜欢研究各种商家策略，精通公司和品牌吸引顾客的各种门道。他非常乐意带你去揭开生活中的商业秘密，然后为你提供建议，有时还会发你些信息bonus。所以，如果你有疑惑，尽管给他发邮件吧—dr.secret@yicai.com。

　　亚马逊中国对个性化推荐系统守口如瓶，哪怕只是相关数据。难怪亚马逊如此小心，现在，个性化推荐以其在电商网站的广泛应用而闻名，它们以顾客的兴趣作为切入点，产生一个推荐列表，也就是你所熟悉的那些“猜你可能会喜欢”。

　　亚马逊是零售网站中使用个性化推荐技术的先驱，其个性化推荐系统目前属于网站的核心机密。而据美国科技博客网站VentureBeat的数据，Amazon.com有35%的销售额是来自个性化推荐。当当、京东等电商网的销售额也有很大部分间接受到个性化推荐的影响。

　　购物网站的个性化推荐到底是如何成为用户的知心人的？答案是，用“个性化算法”。它属于数据挖掘的范畴，依据一定的逻辑与公式，计算出用户的个人偏好，发掘出他们无法正确表述，甚至还未成形的需求。这件事最有意义的地方在于能把只能凭直觉判断的主观“喜好”彻底量化，达到精准推荐的目的。

　　听上去很玄对不对？实际上……它确实不那么简单。这次，我们也“死理性派”一次，逐一分析四种被运用得最多的“个性化算法”。电子科技大学互联网科学中心主任周涛认为，新用户更容易受流行的影响，而老用户的个性化需求会更强。正是由于这一原则，当消费者来到一个陌生的电子商务网站，或者成为网站的注册用户时，接受到的推荐多是热门的、流行的畅销商品。而只有当消费者留下浏览、搜索和购买记录后，他们才能得到更有针对性的推荐。

　　关联推荐，渐被淘汰的个性化算法

　　这种方法最为简单直白，网站将用户搜索、浏览、购买、已评级的商品视为一个整体，分解出作者、主题、品牌等关键词，进而搜索与此商品最直接相关的东西。例如，消费者在网站浏览了伍迪?艾伦的《中央西路》，那么网站就会默认用户喜欢该导演，伍迪?艾伦的其他作品便会出现在推荐书单里。网站分解出的哪个词出现频率越高，就证明与之相关的东西越代表用户的喜好。看得出，这种方法并不智能。因为它把用户理解得过于简单。正是因为这一缺陷，关联推荐完全OUT了。当当数据分析师张嘉洪说，这是电子商务网站最早期的推荐方法，现在国内只有少数小规模购物网站用的还是这种推荐模式。

　　人以群分，基于用户的个性化算法

　　“协同过滤”是目前商业应用最广泛的个性化技术，它整合所有用户的信息，为个体服务。基于用户的协同过滤是第一代协同过滤技术。它背后的道理非常简单：人以群分。如果一群消费者常在网站购买同样的商品，那么这些人应该有相似的偏好。网站要做的就是找出那些有相似购物或浏览记录的用户，然后把他们还不曾拥有的东西相互推荐—把甲消费者买过、但乙消费者还没有购买的东西，推荐给乙消费者，反之亦同。

　　比起关联推荐，这种方法能帮助顾客发现新的、有趣的商品。然而，用户间的相似度如何判断，需要经过复杂的计算才能得出具体数值。下图是A、B、C、D四位用户在CDNOW网站的购买记录：

　　看起来很复杂是吧？你只需要记住，这个公式可以算出不同用户的相似系数。以此类推，A与C的相似系数约为0.41，而A与D的也约为0.41，数值越高，相似度越大，由此可以判断：A与B的品位最为接近，可以将B已经购买、而A尚未购买的商品2推荐给A。事实上，当网站找到了与A相似的多位用户之后，它会将那些A尚未购买，而其他人已经购买的专辑，按照这些专辑被购买的概率，对产品进行排序，最终才把排名靠前的东西推荐给A。

　　物以类聚，基于商品的个性化算法

　　对当当／京东等大型零售网站来说，它的用户数量远大于商品数量，那么基于用户的个性化算法显然会带来计算量过大的问题。豆瓣工程师阿稳说，计算用户之间的相似性需要计算1000万次左右，而计算商品之间的相似性，10万次左右就够了。

　　基于提高计算效率这一思路，亚马逊个性化部门的共同创始人Greg Linden设计和开发了“从商品到商品的协同过滤”技术。这也是目前被使用最多的个性化算法。简单来讲，其原理是先判断哪些商品之间具有潜在相关性，然后根据用户的购买记录，把那些和购买记录中关联度高的商品推荐给用户。

　　何为潜在相关性呢？看个经典案例—购物篮分析。1990年代，零售商们在美国中西部超市发现了“啤酒-尿布综合症”：年轻男顾客的购物篮中，尿布和啤酒会同时出现。这其中的联系是，男顾客被妻子打发出来买尿布后，都会拎一箱啤酒回去。向买尿布的年轻男子推销啤酒，成功率会明显增高。当两种看似风马牛不相及的商品被同一用户同时购买的频率越高，那么商品的潜在关联就越强。当面对海量的数据集和用户数量时，从商品到商品的协同过滤会显现出优势—实时做出高品质推荐。因此，当我们在亚马逊等网站浏览某商品后，即便立刻回到主页，主页的推荐也会根据之前的浏览信息立刻做出调整，反应时间被控制在半秒之内，甚至更短。

　　你输入的关键字也能成为个性化算法

　　有时候用户并不清楚他们想要的是什么，他会通过关键字来进行搜索，而网站会根据这些对商品内容描述的词，推荐更多与你需求类似的东西。如果一件商品的tag，即标签越多，那么它的属性也就越丰富，与之相关联的东西也就越多。网站也会根据这些标签来计算哪些商品的关联度更高。这种个性化算法在业内被称为“基于内容过滤的算法”。豆瓣负责个性化推荐的工程师王可斌说，目前“豆瓣猜”采用的就是“基于内容的算法”和“基于商品的个性化算法”。

　　不过，如果网站只采取“基于内容过滤”的个性化推荐也也会产生问题—获取的内容虽与消费者兴趣吻合，但也会让消费者的购买视野越来越窄。

　　个性化推荐的风险

　　而今，所有的个性化推荐都不会只采用一种算法，而是文中各种算法的结合。不过，愈加智能的个性化推荐仍存在一些风险。豆瓣曾推荐了本《富人不说，却默默在做的33件事》，有网友说：认为谁穷疯了么，你爱推荐给谁给谁，别总给我推荐这类书！当然，这段话已经被我们“翻译”得很温和了。或许，网站应该反思一下如何不让个性化推荐冒犯到用户。

　　此外，网站搜集的信息越多，消费者越会感到隐私受侵犯。如果你的朋友都收到了以下推荐：“你的好友最近购买了一些减肥药，你要不要也试试？”这多令人尴尬啊！亚马逊解决这一冲突的方法是，允许消费者修改或删除记录。