“社会化标签”这个名字听起来很专业,其实就是指用户通过若干标签(短语)来描述一些对象物。这些对象主要集中在互联网上,既包括自己上传的照片、写的博客,也包括阅读过的书、听过的音乐,甚至还可以是对自己状态和特征的刻画。社会化标签有很大的用途,它既是对象物内容和特征的高度抽象,又体现了用户个性化的偏好。譬如同样看过电影《汉尼拔》,观众A可能给出标签“安东尼.霍普金斯”,观众B可能给出标签“食脑”,对于前者我们可以推荐安东尼的另一部电影《亚历山大大帝》,对于后者,我们可以向他推荐科幻恐怖电影的先驱《食脑人》。社会化标签也是一种很有效的理解图片和视频的方法,因为对于这样的信息,计算机目前的处理能力还有欠缺。当然,标签数据往往包含很多的噪音,特别是一些用户为了提高和自己相关的文章、网页、图片、商品的点击数,往往添加很多流行但与内容并无关系的“假标签”。对标签系统的清洗、分析和应用是一个很有趣的科学问题。
这篇文章结构上很完整,讨论已经有的成果,给出新的定义,然后通过实证数据中比较新定义和以前定义的优劣。作者野心很大,给出的不是某一种定义的改进或者某个新的指数,而是抽象一套普适的计算模型——这个模型对于一般性的权值网络都是适用的。顶层架构属于名门望族出身,背后往往都有干净漂亮的数学和物理基础,但是针对具体问题不一定好用。本文所设计的算子,也只能在某些情况下勉强和以前的指数抗衡,实际上还要差一些。至于为什么二号算子AUC非常低,Precision还不错,作者没有说,我估计也说不清楚。抽样之后的指数,物理意义反而没有“共同邻居指数”、“资源分配指数”这些具体的指数清楚。要想把这个漂亮的顶层架构推广出去,作者还得下些功夫,总之,要好懂要好用还要想想这些算子能否在其他问题上发挥作用。