可以甄别互联网恶意用户的排序算法
周涛  |  2011-05-27  |  科学网  |  347次阅读

    恶意用户是一个让所有互联网商家和普通用户头痛的问题,除非你本人就是恶意用户。大家不妨想想淘宝上通过虚假购买和虚假评分打造出来的皇冠商家,微博上面的僵尸粉和水军……当然,恶意用户可能也没有那么可恶,也许他只是乱评论乱打分,扰乱网络生态环境,但是依然在某种程度上伤害到我们获取信息的准确性上。

 

我们可以用一个简单的数学模型来刻画这种互联网上普遍的评分行为。用一个二部分图,一部分节点是用户,另外一部分节点是对象,譬如商品、电影、书籍等等,用户可以给自己看过的电影,购买过的商品打分。正常的用户会根据商品的质量进行评分,当然,每个人都会有误差了;而恶意用户可能会表现为:随机乱打分,故意给一个集合里面的商品打高分,故意给一个集合里面的商品打低分……我们要做的事情就是,建立一个Reputation system(信誉系统,这是我认为在互联网时代特别重要的),能够给出对象质量和用户评价准确程度(可信度或者信誉度)的排序。

 

我们的基本方法是迭代寻优(Iterative Refinement)。简单地说,就是对象的质量是由用户打分的加权平均决定的,其中信誉度高的用户权重大;而用户的权重又是根据他的若干打分是否整体上较符合对象的质量来决定的。所以,这是一个迭代的方程,最终会收敛。我们的算法不管是在人工生成的数据,还是MovieLensNetflix在线电影观看的真实数据上,效果都比原来的方法要好。

 

当然,需要提醒的是,道高一尺魔高一丈,再好的方法,也总会有更厉害的恶意用户能够从中获益——我们只是希望把恶意渔利的门槛提高一些罢了。

 

文章信息:Yan-Bo Zhou, Ting Lei, Tao Zhou, A robust ranking algorithm to spamming, EPL 94 (2011) 48002.

 

文章链接:http://iopscience.iop.org/0295-5075/94/4/48002

 

全文下载: ranking-against-spamming.pdf




文章原载于作者的科学网文章,所述内容属作者个人观点,不代表本平台立场。
本文经过系统重新排版,阅读原内容可点击 阅读原文