复杂性专栏:短信网络+社会标签
周涛  |  2012-11-14  |  科学网  |  425次阅读

题目:短信网络的加权演化模型研究

摘要通过对实际数据的分析,获得了短信网络的一些特点,包括:度分布和边权分布符合低头和重尾的幂律分布、平均点强度和点度不具有幂函数律的关联性等等。在此基础上,将用户间短信交互次数视为短信网络的边权,提出了一种加权短信网络演化模型,其中新节点加入采用加权局部优先连接机制,边权更新基于节点间亲密度及近期联系频繁度。仿真结果表明,该生成模型较好地符合了实际短信网络的统计特性。

评述手机短消息通信是现代社会最重要的通信方式之一。以手机为节点,短信通信为边,可以搭建一张比Facebook还要大的社会网络。本文作者分析了来自日本和韩国的两张短信网络网络,并以短信交互次数为权重,讨论了相应加权网络的若干分布和关联性质。对于含权网络建模,Barrat等人2004年在《美国物理评论快报》上给出了针对航空网络的一个很简洁的模型,紧接着王文旭等人2005年在《美国物理评论快报》上做了重要改进,特别是重现了节点权重和节点度之间非线性的关联关系,该关系在很多交通网络中都被观察到了。但是,短信和交通很不一样!首先,短信通信属于一个社交活动,因此我们总是倾向于或者说有更多机会认识我们朋友的朋友,并和他们交流。这一个效应非常强大,以至于仅仅利用这一点,就可以解释绝大部分社交网络新关系的产生。我向大家推荐2010年吕琳媛博士在本专栏发表的名为“复杂网络链路预测”一文,里面特别强调了这个机制。其次,航线和交通道路的从规划实际运营时间周期很长,几乎看不到短期的关联——短信通讯则不同,你最近的新业务和正在追的某个女孩子都可能使你针对特定个体的短信量剧增。本文作者在模型中考虑了上述两个因素,得到了比较符合真实网络的统计特征。我自己蛮同意作者的观点,但是模拟结果比较吻合并不能说明模型的机制就是正确的,甚至不能说明这个机制就比以前的机制更能描述网络的真实增长机制。关于这一点,对不起,我又要王婆卖瓜了,向大家推荐2011年王文强和张千明在本专栏发表的论文“链路预测的网络演化模型评价方法”。

回顾最近互联网和移动互联网的发展:在Yahoo称霸江湖的时候,我们一起看一样的新闻,并不提供任何自己的信息;然后My Space横空出世,打响了社交网络的第一枪,虽然我们可以匿名,但是我们发布的信息朋友们可以看到;Facebook引入了实名制,但是信息还是只有好友能够阅读,Twitter不实名,但是你发的东西所有人都能看……一代代叱咤风云的公司后面,隐藏着一个宏观的趋势,就是用户的隐私失去的越来越多,得到的服务业越来越贴心。其实这里面的逻辑很简单,信息就像原材料,有了更多的材料才可能加工出更多的产品。商业如是,科学亦如是!手机是世界上最最成功的传感器,记录了你的兴趣、社会关系、交易支付行为甚至时时刻刻所在的位置。我们有理由相信手机的数据能够孕育出新的伟大企业和伟大科学发现。郑宇在微博中说,卡内基-梅隆大学著名的Faloutsos告诉他,他们已经转向分析手机轨迹数据了。Faloutsos三兄弟1999年在SIGCOMM上发表的关于Internet连接数符合幂律分布的论文,现在引用4000多次,相信很多做复杂网路的同仁记忆犹新。咱们可不能老让这些外国朋友跑在我们前面!

全文链接:http://www.xb.uestc.edu.cn/nature/index.php?p=item&item_id=1171

全文下载:

短信网络的加权演化模型研究.pdf

 

--------------

题目:基于复杂网络的社会化标签语义相似度分析

摘要:针对社会化标签系统所对应的标签共现复杂网络,引入标签语义相似度权值和抽象权值算子,建立了标签语义相似度计算模型。相比基于“用户-对象-标签”三元组的统计性计算公式基于复杂网络拓扑结构的节点相似性计算公式,本模型可以在标签语义相似度计算中将标签标注行的统计特性与复杂网络的拓扑特性有机地合起来,形成一个具有良好数学性质的形式化系统。仿照模糊逻辑中T范数、S范数给出了抽象权值算子的具体化实现,形成具体化算子簇,可以通过调节参数(参数h和阶数l)形成不同类型或不同全局性的具体化算子。设计实验方案利用复杂网络链路预测的AUC指标、Precision指标对典型算子及算子簇进行了综合分析。分析结果表明,这些具体化算子同时具有“语义补充语义破坏两种相反作用,在算子阶数较低(2l5)时能明显提高标签语义相似度计算的准确性,社会化标签系统的高精确性个性化推荐算法设计中具有应用价值


评述:“社会化标签”这个名字听起来很专业,其实就是指用户通过若干标签(短语)来描述一些对象物。这些对象主要集中在互联网上,既包括自己上传的照片、写的博客,也包括阅读过的书、听过的音乐,甚至还可以是对自己状态和特征的刻画。社会化标签有很大的用途,它既是对象物内容和特征的高度抽象,又体现了用户个性化的偏好。譬如同样看过电影《汉尼拔》,观众A可能给出标签“安东尼.霍普金斯”,观众B可能给出标签“食脑”,对于前者我们可以推荐安东尼的另一部电影《亚历山大大帝》,对于后者,我们可以向他推荐科幻恐怖电影的先驱《食脑人》。社会化标签也是一种很有效的理解图片和视频的方法,因为对于这样的信息,计算机目前的处理能力还有欠缺。当然,标签数据往往包含很多的噪音,特别是一些用户为了提高和自己相关的文章、网页、图片、商品的点击数,往往添加很多流行但与内容并无关系的“假标签”。对标签系统的清洗、分析和应用是一个很有趣的科学问题。

这篇文章结构上很完整,讨论已经有的成果,给出新的定义,然后通过实证数据中比较新定义和以前定义的优劣。作者野心很大,给出的不是某一种定义的改进或者某个新的指数,而是抽象一套普适的计算模型——这个模型对于一般性的权值网络都是适用的。顶层架构属于名门望族出身,背后往往都有干净漂亮的数学和物理基础,但是针对具体问题不一定好用。本文所设计的算子,也只能在某些情况下勉强和以前的指数抗衡,实际上还要差一些。至于为什么二号算子AUC非常低,Precision还不错,作者没有说,我估计也说不清楚。抽样之后的指数,物理意义反而没有“共同邻居指数”、“资源分配指数”这些具体的指数清楚。要想把这个漂亮的顶层架构推广出去,作者还得下些功夫,总之,要好懂要好用还要想想这些算子能否在其他问题上发挥作用。

全文链接:http://www.xb.uestc.edu.cn/nature/index.php?p=item&item_id=1170

全文下载:

基于复杂网络的社会化标签语义相似度分析.pdf




文章原载于作者的科学网文章,所述内容属作者个人观点,不代表本平台立场。
本文经过系统重新排版,阅读原内容可点击 阅读原文