师说 | 网络名师博客群 of 电子科技大学

评“基于复杂网络的社会化标签语义相似度分析”

周涛 | 2012-09-19 | 科学网 | 859次阅读

“社会化标签”这个名字听起来很专业，其实就是指用户通过若干标签（短语）来描述一些对象物。这些对象主要集中在互联网上，既包括自己上传的照片、写的博客，也包括阅读过的书、听过的音乐，甚至还可以是对自己状态和特征的刻画。社会化标签有很大的用途，它既是对象物内容和特征的高度抽象，又体现了用户个性化的偏好。譬如同样看过电影《汉尼拔》，观众A可能给出标签“安东尼.霍普金斯”，观众B可能给出标签“食脑”，对于前者我们可以推荐安东尼的另一部电影《亚历山大大帝》，对于后者，我们可以向他推荐科幻恐怖电影的先驱《食脑人》。社会化标签也是一种很有效的理解图片和视频的方法，因为对于这样的信息，计算机目前的处理能力还有欠缺。当然，标签数据往往包含很多的噪音，特别是一些用户为了提高和自己相关的文章、网页、图片、商品的点击数，往往添加很多流行但与内容并无关系的“假标签”。对标签系统的清洗、分析和应用是一个很有趣的科学问题。

这篇文章结构上很完整，讨论已经有的成果，给出新的定义，然后通过实证数据中比较新定义和以前定义的优劣。作者野心很大，给出的不是某一种定义的改进或者某个新的指数，而是抽象一套普适的计算模型——这个模型对于一般性的权值网络都是适用的。顶层架构属于名门望族出身，背后往往都有干净漂亮的数学和物理基础，但是针对具体问题不一定好用。本文所设计的算子，也只能在某些情况下勉强和以前的指数抗衡，实际上还要差一些。至于为什么二号算子AUC非常低，Precision还不错，作者没有说，我估计也说不清楚。抽样之后的指数，物理意义反而没有“共同邻居指数”、“资源分配指数”这些具体的指数清楚。要想把这个漂亮的顶层架构推广出去，作者还得下些功夫，总之，要好懂要好用还要想想这些算子能否在其他问题上发挥作用。