《Who says what to whom on Twitter》简述
作者:Shaomei Wu, Jake M. Hofman, Winter A. Mason, Duncan J. Watts
发表于:
WWW’11 Hyderabad, India: Proceedings of the 20th international conference on world wide web
ACM New York, 2011
ISBN: 978-1-4503-0632-4 doi > 10.1145/1963405.1963504
整理人:张千明
主要研究内容:
本文将Twitter中的用户分为了两大类——普通用户和精英用户,精英用户又被分为四类,分别为媒体(media)、名人(celebrities)、博主(bloggers)和组织机构(formal organizations)。基于此分类,本文先后关注了不同类型用户的受关注程度、信息流向、不同话题的受关注程度、寿命及其在不同类型用户中的生存方式。研究发现: (a) 2万个精英用户吸引了大约50%的关注;(b) 媒体创造了大部分的信息;(c) 精英用户倾向于关注同类型用户;(d) two-step flow是Twitter中的一种重要信息传播方式;(e) 不同类型的用户关注不同类型的tweet,而且不同类型的tweet的寿命不同。
论文的贡献主要在三个方面:
1) 引入了一种方法来区分精英用户和普通用户,并用此方法将精英用户分为四类媒体(media)、名人(celebrities)、博主(bloggers)和组织机构(formal organizations);
2) 通过调查不同类型间的信息流向,发现:尽管用户的关注主要集中于少数精英用户,其中许多信息是通过大量中介用户间接传递给广大用户;
3) 不同类型的用于关注的话题不同,不同类型话题的寿命也不同(跨度从不满1天到数月之间)。
下文主要对于本文的研究结果进行简单重述,而对于本文采用方法则不去深究。
数据信息:
作为国外微博的领军人Twitter,在2011年3月达到了2亿用户,每天产生6500万微博。作者抓取了部分数据作为研究对象,包含4200万个用户,15亿条边(关注关系),并且有2009年7月28日起到2010年3月8日之间的50亿条tweet(出于研究的需要,在这里仅关注了其中的2.6亿条,比较容易对其进行分类)。在4200万个用户中,作者选取了2万个精英用户,分别包含5000个media用户、5000个celebrities用户、5000个bloggers用户和5000个formal organizations用户。分类之后,与每种类型的用户相关的tweet数目如表2(Table 2)所示。可见媒体发出的信息占精英用户中的绝大部分。
同质性 --- Homophily
作者研究了精英用户之间的关注关系,发现了很强的同质性,即名人倾向于收听名人、而博主则倾向于关注博主。
微博中普通用户接受到的信息有许多不同的来源,其中大部分都不是传统的媒体机构,尽管媒体用户是Twitter中最活跃的用户,也仅有15%的信息是从media用户直接传到普通用户的。但是精英用户毕竟是少数,还不足总用户数量的0.05%,但是他们却吸引了大约50%的关注。即使media用户没有其他精英用户的关注,信息流也不会变的平均。
那么精英用户之间的关注情况是怎么样的呢?请看下图,Figure 3,展示了信息的流向,A箭头指向B表示B类用户从A类用户那里接受到信息。
从Figure 3中可以看出,用户更倾向于关注同类的用户。但是organizations用户比较特殊,关注Blogger用户更多,但实际上,从organizations那里获得的关注其实上是比较平均的。需要指出Figure 3的统计方法是有一点问题的:Figure 3仅仅是关注了B类用户从A类用户那里接受到的信息量,但是却没有注意到很多内容并没有被阅读。于是Figure 4就仅仅关注了转发的微博,即A箭头指向B表示A类用户转发了B类用户的微博。
Figure 4则反映了与Figure 3迥然不同的结果,名人很少转发名人的消息,而博主相互转发的可能性就非常的大,而且媒体被转发的微博有一半是通过博主。
Two-step Flow
Two-step Flow的本质在于来自媒体的信息并非直接传播给大众,而是首先要传到一个媒介(中介)intermediary,这个intermediary则起到过滤的作用——决定将哪些信息转送给他们的粉丝并将哪些信息过滤掉。那么在Twitter中,有多大比例的信息是直接传递给大众,又有多少信息是通过two-step flow的方式传播的呢?Twitter中又有多少intermediary用户,这些intermediary又都是哪种类型的呢?
在回答这些问题之前,需要指出在Twitter里面信息通过intermediary传播有两种方式:转发(retweet)和再引入(reintroduce)。关于“转发”,大家都很熟悉,就是说当你接收到一则消息,然后通过官方的功能或者是其他一些方法(如“RT @user”或者“via @user”)将这则信息再广播出去(广播给你的粉丝);而对于“再引入”,是作者引入的一个概念,当一个用户推送某则消息,但是他不知道这则消息在他引入之前就已经有人引入了,此时就假设这则消息的再出现与之前被引入的行为是独立的。
为了研究在Twitter中信息的传播方式,作者做了一个实验:随机采样了100万个普通用户,对每个用户统计其通过5千个media用户而得到的URL的数目n;其中有60万个用户至少从media用户那里接收到1个URL;然后,关注其中每一个普通用户得到的URL,记这些URL中有 n2 个是通过two-step flow的方式传达的。统计结果得到 n2/n 的平均值为0.46,这说明,有46%的消息是通过two-step flow的方式传播而不是直接传播给大众。
那么intermediary是哪些用户呢?如果一个URL是被一个media用户首次引入,但一些用户却是从另外的用户u 获取该信息,那么用户u 则被称之为intermediary。intermediary的数量比关注他们的用户少的多,但也非常多,大约有50万,其中96%都被划分为普通用户而不是精英用户。注意,精英用户只有2万,即他们几乎全部都是intermediary。然而,最主要的intermediary都属于那些仅占4%的精英用户,比如Ashton Kucher(asplusk)作为10万用户的intermediary。事实上,intermediary的界限并不明显,有些intermediary同样也通过two-step flow的方式收到信息。
哪些人关注哪些话题?(Who listens to what?)
这个问题可以通过一个图进行非常清晰的说明。作者分析由New York Times发出的URL,将6370条URL分成21类,但其中数目超过100的仅有9个。如Figure 7(下页)所示,作者将前8个数据的结果展示给我们,每个子图代表一种类型的URL,而每一个子图中的阴影柱则反映了某种类型的URL所占的比例(不同的用户分开统计),other代表普通用户。可以清晰的看出,新闻类的信息引起的关注最多;organizations对于art类的URL几乎完全不感兴趣;celebrities对于sport比较感兴趣却较少地关注health相关的内容。
微博的寿命(lifespan of content & lifespan by category)
不同类型用户引入的URL的寿命是不同的。如图Figure 9(a)(下页),是微博寿命的数目分布图,对应精英用户URL的走势与普通用户的相似(普通用户的曲线比较靠上是由于用户数量上的差异);Figure 9(b)(下页)则是微博寿命的概率分布图。两图中的每条线都对应于某一特定类型的用户群体。Figure 9(b)显示出:media用户产生的URL,有很大一部分的寿命为0,也就是仅出现了一次;始于blogger的长寿的URL,相对于其他类型的用户,占了较多的比例。
这种现象其实可以与不同类型用户关注不同类型URL联系起来。比如说新鲜事很快就
会被更新,而blogger关注的信息则更持久(比如说health类得),在数月之后也有可能引起关注、转发等行为。
为了做更进一步的分析,作者关注了最“长寿”的3.5万个URL(寿命在200天以上),并且将他们映射到21034个不同领域。如Figure 10所示,这些URL主要属于影视、音乐和书籍类。Twitter应属于media的 子类。
这些URL(尤其是“长寿”的URL)是如何在Twitter中“生存”的呢?是转发,还是再引入?Figure 11展示了对于不同类型的用户,具有不同生命周期的URL被转发的比例。
对于普通用户(即Twitter中的大部分用户)来讲,“长寿”的内容不是通过“转发”的方式传播,而是通过“再引入”的方式在Twitter中存在;而精英用户则不同,有一半甚至更多的内容通过“转发”的方式长期存在。
总结:
1) 精英用户与普通用户的影响及行为特征不同
2) 约占0.05%的精英用户吸引了大约50%的关注
3) 关注行为更多发生在同类用户之间(同质性)
4) two-step flow传播方式在Twitter中的重要性以及intermediary的分布
5) 不同类用户关注的话题不同,不同类话题受到的关注程度也不同
6) 不同类话题的“寿命”不同,且“生存”方式不同