比科普还科普的讲解,不过很清楚~~
有趣的是,还提到了我的一个“认为”,这原初是2010年我们做的一篇EPL的文章,后来2011年张成军和曾安得到了更清晰的结论,发表在Physica A上面——新老用户行为模式不同(当然不象文章讲的那么简单,但是意思总体上差不多),用户面对不同类商品行为模式也不同(高风险和低风险购物行为迥异)~~
不过文章这样说,感觉好像采访过我或者交流过,实际上完全没有!但是我不反对这种说法~~
和讯链接 http://tech.hexun.com/2012-02-17/138380430.html
------------------------------------------------------------
个性化推荐猜你心
个性化推荐已悄无声息地成为网站拉拢用户的必备利器。
MONEY+记者|王茹芳
Dr. S,喜欢研究各种商家策略,精通公司和品牌吸引顾客的各种门道。他非常乐意带你去揭开生活中的商业秘密,然后为你提供建议,有时还会发你些信息bonus。所以,如果你有疑惑,尽管给他发邮件吧—dr.secret@yicai.com。
亚马逊中国对个性化推荐系统守口如瓶,哪怕只是相关数据。难怪亚马逊如此小心,现在,个性化推荐以其在电商网站的广泛应用而闻名,它们以顾客的兴趣作为切入点,产生一个推荐列表,也就是你所熟悉的那些“猜你可能会喜欢”。
亚马逊是零售网站中使用个性化推荐技术的先驱,其个性化推荐系统目前属于网站的核心机密。而据美国科技博客网站VentureBeat的数据,Amazon.com有35%的销售额是来自个性化推荐。当当、京东等电商网的销售额也有很大部分间接受到个性化推荐的影响。
购物网站的个性化推荐到底是如何成为用户的知心人的?答案是,用“个性化算法”。它属于数据挖掘的范畴,依据一定的逻辑与公式,计算出用户的个人偏好,发掘出他们无法正确表述,甚至还未成形的需求。这件事最有意义的地方在于能把只能凭直觉判断的主观“喜好”彻底量化,达到精准推荐的目的。
听上去很玄对不对?实际上……它确实不那么简单。这次,我们也“死理性派”一次,逐一分析四种被运用得最多的“个性化算法”。电子科技大学互联网科学中心主任周涛认为,新用户更容易受流行的影响,而老用户的个性化需求会更强。正是由于这一原则,当消费者来到一个陌生的电子商务网站,或者成为网站的注册用户时,接受到的推荐多是热门的、流行的畅销商品。而只有当消费者留下浏览、搜索和购买记录后,他们才能得到更有针对性的推荐。
关联推荐,渐被淘汰的个性化算法
这种方法最为简单直白,网站将用户搜索、浏览、购买、已评级的商品视为一个整体,分解出作者、主题、品牌等关键词,进而搜索与此商品最直接相关的东西。例如,消费者在网站浏览了伍迪?艾伦的《中央西路》,那么网站就会默认用户喜欢该导演,伍迪?艾伦的其他作品便会出现在推荐书单里。网站分解出的哪个词出现频率越高,就证明与之相关的东西越代表用户的喜好。看得出,这种方法并不智能。因为它把用户理解得过于简单。正是因为这一缺陷,关联推荐完全OUT了。当当数据分析师张嘉洪说,这是电子商务网站最早期的推荐方法,现在国内只有少数小规模购物网站用的还是这种推荐模式。
人以群分,基于用户的个性化算法
“协同过滤”是目前商业应用最广泛的个性化技术,它整合所有用户的信息,为个体服务。基于用户的协同过滤是第一代协同过滤技术。它背后的道理非常简单:人以群分。如果一群消费者常在网站购买同样的商品,那么这些人应该有相似的偏好。网站要做的就是找出那些有相似购物或浏览记录的用户,然后把他们还不曾拥有的东西相互推荐—把甲消费者买过、但乙消费者还没有购买的东西,推荐给乙消费者,反之亦同。
比起关联推荐,这种方法能帮助顾客发现新的、有趣的商品。然而,用户间的相似度如何判断,需要经过复杂的计算才能得出具体数值。下图是A、B、C、D四位用户在CDNOW网站的购买记录:
看起来很复杂是吧?你只需要记住,这个公式可以算出不同用户的相似系数。以此类推,A与C的相似系数约为0.41,而A与D的也约为0.41,数值越高,相似度越大,由此可以判断:A与B的品位最为接近,可以将B已经购买、而A尚未购买的商品2推荐给A。事实上,当网站找到了与A相似的多位用户之后,它会将那些A尚未购买,而其他人已经购买的专辑,按照这些专辑被购买的概率,对产品进行排序,最终才把排名靠前的东西推荐给A。
物以类聚,基于商品的个性化算法
对当当/京东等大型零售网站来说,它的用户数量远大于商品数量,那么基于用户的个性化算法显然会带来计算量过大的问题。豆瓣工程师阿稳说,计算用户之间的相似性需要计算1000万次左右,而计算商品之间的相似性,10万次左右就够了。
基于提高计算效率这一思路,亚马逊个性化部门的共同创始人Greg Linden设计和开发了“从商品到商品的协同过滤”技术。这也是目前被使用最多的个性化算法。简单来讲,其原理是先判断哪些商品之间具有潜在相关性,然后根据用户的购买记录,把那些和购买记录中关联度高的商品推荐给用户。
何为潜在相关性呢?看个经典案例—购物篮分析。1990年代,零售商们在美国中西部超市发现了“啤酒-尿布综合症”:年轻男顾客的购物篮中,尿布和啤酒会同时出现。这其中的联系是,男顾客被妻子打发出来买尿布后,都会拎一箱啤酒回去。向买尿布的年轻男子推销啤酒,成功率会明显增高。当两种看似风马牛不相及的商品被同一用户同时购买的频率越高,那么商品的潜在关联就越强。当面对海量的数据集和用户数量时,从商品到商品的协同过滤会显现出优势—实时做出高品质推荐。因此,当我们在亚马逊等网站浏览某商品后,即便立刻回到主页,主页的推荐也会根据之前的浏览信息立刻做出调整,反应时间被控制在半秒之内,甚至更短。
你输入的关键字也能成为个性化算法
有时候用户并不清楚他们想要的是什么,他会通过关键字来进行搜索,而网站会根据这些对商品内容描述的词,推荐更多与你需求类似的东西。如果一件商品的tag,即标签越多,那么它的属性也就越丰富,与之相关联的东西也就越多。网站也会根据这些标签来计算哪些商品的关联度更高。这种个性化算法在业内被称为“基于内容过滤的算法”。豆瓣负责个性化推荐的工程师王可斌说,目前“豆瓣猜”采用的就是“基于内容的算法”和“基于商品的个性化算法”。
不过,如果网站只采取“基于内容过滤”的个性化推荐也也会产生问题—获取的内容虽与消费者兴趣吻合,但也会让消费者的购买视野越来越窄。
个性化推荐的风险
而今,所有的个性化推荐都不会只采用一种算法,而是文中各种算法的结合。不过,愈加智能的个性化推荐仍存在一些风险。豆瓣曾推荐了本《富人不说,却默默在做的33件事》,有网友说:认为谁穷疯了么,你爱推荐给谁给谁,别总给我推荐这类书!当然,这段话已经被我们“翻译”得很温和了。或许,网站应该反思一下如何不让个性化推荐冒犯到用户。
此外,网站搜集的信息越多,消费者越会感到隐私受侵犯。如果你的朋友都收到了以下推荐:“你的好友最近购买了一些减肥药,你要不要也试试?”这多令人尴尬啊!亚马逊解决这一冲突的方法是,允许消费者修改或删除记录。