几乎每个人从小到大都认识了几百乃至上千个朋友,但在同一时期能够维持的朋友关系数量却非常有限。人类学家Dunbar曾就此问题展开研究,提出了社交大脑假说理论[1,2],指出人类维系社交关系的能力(即能同时保持联系的朋友数目)存在一个上限,大约是150,这就是著名的Dunbar数(顿巴数,又叫Rule of 150)。这一上限是由灵长类动物的生理特性所决定的,且近期有研究表明,这一上限并没有因为更高的通讯效率(如手机、社交网站)而被突破[3,4]。
这里所说的“同时保持联系的朋友”是针对某个人(记作A)而言的,将此人以及他的朋友们看作是节点,只考虑这个人和他朋友,以及他朋友之间的连边,就可以得到一个以A为中心的网络,即自我中心网络(egonetwork)[5,6],也叫个人中心网络。
自我中心网络在人类学中非常重要,不仅有助于对个人的特征进行细致的研究,比如准确识别人们的社交圈子[7],还可以拓展到研究社会网络的结构和功能[8,9],衡量科学家的影响力[10],研究蛋白质相互作用网络从而识别潜在的致病基因[11],等等。
在自我中心网络中,通常不只是记录了人们之间是否存在联系,还有这些联系的强度与持久性。因此很多个人中心网络是含有权重信息了。下面我们分享了来自美国斯坦福大学、意大利科学交流中心(ISI Foundation)、法国国家科学研究中心(CNRS)、电子科技大学、芬兰阿尔托大学等单位七组ego networks的数据,供有兴趣的朋友做研究使用。
数据链接
1.【Facebook ego network】:http://www.pkbigdata.com/common/share/53.html
2.【Twitter ego network】:http://www.pkbigdata.com/common/share/54.html
3.【Google+ ego network】:http://www.pkbigdata.com/common/share/56.html
4.【Communication ego network】:http://www.pkbigdata.com/common/share/57.html
5.【Employee ego network】:http://www.pkbigdata.com/common/share/59.html
6.【HighSchoolContact ego network】:http://www.pkbigdata.com/common/share/60.html
7.【Communication-1 ego network】:http://www.pkbigdata.com/common/share/61.html
参考文献
[1] R. I. M. Dunbar. The socialbrain hypothesis. Evolutionary Athropology6(1998) 178.
[2] R. I. M. Dunbar, S. Shultz.Evolution in the social brain. Science 317(2007) 1344.
[3] B. Goncalves, N. Perra, A.Vespignani. Modeling Users’ Activity on Twitter Networks: Validation ofDunbar’s Number. PLoS ONE 6 (2011) e22656.
[4] Q. Wang, J. Gao, T. Zhou,Z. Hu, H. Tian. Critical size of ego communication networks. EurophysicsLetters 114 (2016) 58004.
[5] L. C. Freeman. Centeredgraphs and the structure of ego networks. Mathematical Social Sciences 3 (1982)291.
[6] R. A. Hanneman, M. Riddle.Introduction to social network methods. 2005. Riverside, CA: University ofCalifornia, Riverside.
[7] J. McAuley, J. Leskovec.Learning to Discover Social Circles in Ego Networks. NIPS 2012, pp. 539-547.
[8] J. Wielens. Ego NetworkAnalysis: An Overview. Bachelor’s Thesis 2014.
[9] V. Arnaboldi, M. Conti, A.Passarella, F. Pezzoni. Analysis of Ego Network Structure in Online SocialNetworks. International Conference on Social Computing & IEEE InternationalConference on Privacy, 2014, pp. 31-40.
[10]J. L. Ortega. Influence ofco-authorship networks in the research impact: Ego network analyses fromMicrosoft Academic Search. Journal of Informetrics 8 (2014) 728.
[11] R. Yang, Y. Bai, Z. Qin,T. Yu. EgoNet: identification of human disease ego-network modules. BMCGenomics 15 (2014) 314.
参考文献免费下载链接:http://www.pkbigdata.com/common/share/62.html
数据描述
---- Data 1 ----
数据名称:ego-Facebook
数据说明:本数据是从App端采集的Facebook用户的数据,包含了用户的属性、社交圈(circles)和egonetwork,数据已被做了脱敏处理。数据共有4039个用户和88234条连边。
nodeId.edges:用户nodeId的egonetwork中的所有连边,nodeID是此egonetwork的中心节点。Facebook中的朋友关系是无方向的,比如文件中的一行元素为“a b”,就表示a和b相互之间是朋友。注:nodeId并不出现在这些连边列表中,但是nodeId与对应文件中所有节点之间都是好友关系。
nodeId.circles:用户nodeId所在的社交圈(circle),以及社交圈内的所有其他成员。每一行数据对应一个社交圈;第一列元素表示社交圈的编号。
nodeId.feat:该文件描述了在对应的nodeId.edges文件中所有出现用户的属性特征。第一列元素是用户id;从第二列开始,对应到不同维度的属性,1表示用户拥有这个属性,0则表示没有。
nodeId.egofeat:用户nodeId的属性特征。
nodeId.featnames:属性特征的名称。提供了属性特征的类别,比如教育信息、生日信息等,但是更详细的信息就被隐藏掉了。
使用说明:需要引用J. McAuley, J. Leskovec. Learning toDiscover Social Circles in Ego Networks. NIPS 2012, pp. 539-547.
源数据出处:斯坦福大学网络分析平台
---- Data 2 ----
数据名称:ego-Gplus
数据说明:本数据是Google+的社交网络数据,涉及的用户都曾手动分享过他们的社交圈,包含了用户的属性、社交圈(circles)和egonetwork,数据已被做了脱敏处理。数据共有107614个用户和13673453条连边。
nodeId.edges:用户nodeId的egonetwork中的所有连边,nodeID是此egonetwork的中心节点。Google+中的朋友关系是有方向的,比如文件中的一行元素为“a b”,就表示a关注了(follow)b,这不意味着b一定关注了a。注:nodeId并不出现在这些连边列表中,但是中心节点nodeId关注了此文件中的所有id。
nodeId.circles:用户nodeId所在的社交圈(circle),以及社交圈内的所有其他成员。每一行数据对应一个社交圈;第1列元素表示社交圈的编号。
nodeId.feat:该文件描述了在对应的nodeId.edges文件中所有出现用户的属性特征。第一列元素是用户id;从第二列开始,对应到不同维度的属性,1表示用户拥有这个属性,0则表示没有。
nodeId.egofeat:用户nodeId的属性特征。
nodeId.featnames:属性特征的名称。提供了属性特征的类别,比如教育信息、生日信息等,但是更详细的信息就被隐藏掉了。
使用说明:需要引用J. McAuley, J. Leskovec. Learning toDiscover Social Circles in Ego Networks. NIPS 2012, pp. 539-547.
源数据出处:斯坦福大学网络分析平台
---- Data 3 ----
数据名称:ego-Twitter
数据说明:本数据是Twitter用户的信息,包含了用户的属性、社交圈(circles)和egonetwork,数据已被做了脱敏处理。数据共有81306个用户和1768149条连边。
nodeId.edges:用户nodeId的egonetwork中的所有连边,nodeID是此egonetwork的中心节点。Twitter中的朋友关系是有方向的,比如文件中的一行元素为“a b”,就表示a关注了(follow)b,这不意味着b一定关注了a。注:nodeId并不出现在这些连边列表中,但是中心节点nodeId关注了此文件中的所有id。
nodeId.circles:用户nodeId所在的社交圈(circle),以及社交圈内的所有其他成员。每一行数据对应一个社交圈;第一列元素表示社交圈的编号。
nodeId.feat:该文件描述了在对应的nodeId.edges文件中所有出现用户的属性特征。第一列元素是用户id;从第二列开始,对应到不同维度的属性,1表示用户拥有这个属性,0则表示没有。
nodeId.egofeat:用户nodeId的属性特征。
nodeId.featnames:属性特征的名称。提供了属性特征的类别,比如教育信息、生日信息等,但是更详细的信息就被隐藏掉了。
使用说明:需要引用J. McAuley, J. Leskovec. Learning toDiscover Social Circles in Ego Networks. NIPS 2012, pp. 539-547.
源数据出处:斯坦福大学网络分析平台
---- Data 4 ----
数据名称:ego-Communication
数据说明:该数据展示了某运营商的通信用户的ego network。由于保密需要,我们这里只能公开一个随机抽样的样本数据,包含10K用户的egonetwork。
nodeId.egonet:用户nodeId的egonetwork中的所有连边,nodeID是此egonetwork的中心节点。对于单个用户,通话分为“打出电话”和“打入电话”。此文件中,每一行有两个非中心节点的用户a和b,表示a和b之间具有双向的通话记录。
nodeId.egofeat:用户nodeId的属性信息。第1列是该中心节点nodeId的出度(即有多少个联系人),第2列是入度,第3列是打出电话的总频次,第4列是打出电话的总时间,第5列是打入电话的总频次,第6列是打入电话的总时间。
nodeId.contacts:用户nodeId与其联系人之间的通话详情。每一行表示一个用户,该用户与中心节点用户nodeId直接联系过。第1列是用户id,第2列表示中心用户打给该用户的频次,第3列表示中心用户打给该用户的总时长,第4列表示该用户打给中心用户的频次,第5列表示该用户打给中心用户的总时长。
使用说明:需要引用Q. Wang, J. Gao, T. Zhou, Z. Hu, H. Tian.Critical size of ego communication networks. Europhysics Letters 114 (2016)58004.
源数据出处:电子科技大学大数据研究中心
---- Data 5----
数据名称:ego-Employee
数据说明:该数据记录了一个上市公司所有员工在内部社交平台上的关注关系和交互行为。
nodeId.edges:用户nodeId的egonetwork中的所有连边,nodeId是此egonetwork的中心节点。该社交平台中的关注关系是有方向的,比如文件中的一行元素为“a b”,就表示a关注了(follow)b,这不意味着b一定关注了a。注:nodeId并不出现在这些连边列表中,但是中心节点nodeId关注了此文件中的所有id。
node.follow:记录了用户的所有关注对象。第1列是中心节点的id,第2列与第1列用逗号隔开,之后是用制表符隔开,表示中心节点的关注对象。
nodeId.action:用户nodeId与其他所有员工的互动频率。第1列表示与中心节点nodeId有互动的员工id,第2列表示互动的频率。
node.feature:列出了每一位员工的属性,第1列是员工id,第2列是性别,第3列是年龄,第4列是工龄,第5列表示学历,所有数据都是经过脱敏的。
使用说明:需要引用J. Yuan, Q.-M. Zhang, J. Gao, L. Zhang,X.-S. Wan, X.-J. Yu, T. Zhou. Promotion and resignation in employee networks.PhysicaA 444 (2016) 442.
源数据出处:电子科技大学大数据中心
---- Data 6----
数据名称:ego-HighSchoolContact
数据说明:该数据记录的是法国一高中9个班级学生的交流数据和朋友关系数据。
High-School_data_2013.csv:此文件记录了每20秒钟这些学生之间的交互情况。第1列是时间戳,第2列和第3列是产生交互的学生ID,第4列和第5列分别是两位学生所在的班级编号。
nodeId.contact:此文件记录了在第4天结束之时,学生报告的交流情况。文件名的nodeId是中心节点,第1列是用户id,记作a,表示中心节点nodeId汇报了他与a有过交流,注意:这个关系是有方向的,它并不表示a也汇报了他与nodeId有联系。第2列是交流的强度,1表示交流实践不超过5分钟,2表示交流时间在5~15分钟,3表示交流时间在15分钟到1小时之间,4表示交流时间在1小时以上。
node.friend:记录了调查数据中,每个人承认的朋友。第1列是中心节点的id,第2列与第1列用逗号隔开,之后是用制表符隔开,都是节点id,比如a,b,c和d,表示在调查数据中,中心节点认为a,b,c,d都是他的朋友。
nodeId.edges:用户nodeId的egonetwork中的所有连边,nodeId是此egonetwork的中心节点。由于是调查问卷的数据,这里的朋友关系不一定是对等的,比如文件中的一行元素为“a b”,就表示a认为b是朋友,这不意味着b也认为a是朋友。注:nodeId并不出现在这些连边列表中,但是中心节点nodeId认为该文件中的所有节点都是他的朋友。
使用说明:需要引用R. Mastrandrea, J.Fournet, A.Barrat.ContactPatterns in a High School: A Comparison between Data Collected Using WearableSensors, Contact Diaries and Friendship Surveys. PLoS ONE 10 (2015) e0136497.
源数据出处:由ISI Foundation、CNRS和Bitmanufactory合办的网站SocioPatterns
---- Data 7 ----
数据名称:ego-Communication-1
数据说明:该数据有两个部分。一个部分是用户的通话信息,另一部分则是通过调查得到的用户对朋友的亲密度评分信息。数据共包含了24名用户对他们朋友持续18个月的通话信息和评价信息。
nodeId.contact:文件名的ID就是一个中心用户的ID。文件内的信息便是该中心用户与其他用户的通话信息。第1列记录了与中心节点有通话的用户ID,第2列表示第i个月;第3列表示在该月有过多少次通话;第4列表示在该月一共有多长时间的通话。
nodeId.closeness:文件名的ID就是一个中心用户的ID。该文件记录了每位中心用户对其他用户的评分信息,以及距离上次面对面通话过了多长时间。第1列记录了与中心节点有通话的用户ID,假如是a2;第2列表示在第1个月刚开始的时候,中心点对a2的亲密度评分;第3列表示在第9个月时,中心点对a2的亲密度评分;第4列表示在第18个月时,中心点对a2的亲密度评分。亲密度的评分范围是从0分到10分,-999表示数据缺失。
第5列表示在第1个月刚开始的时候,中心点与a2上次面对面交流距离当时的时间长度;第6列表示在第9个月时,中心点与a2上次面对面交流距离当时的时间长度;第7列表示在第18个月时,中心点与a2上次面对面交流距离当时的时间长度。-999表示数据缺失,这个数据也是通过调研获得的,给用户的选择有2天内,3~7天,8~14天,15~30天,数月、数年、永远没有,在具体的数据表格中,取的是这些时间长度的中位数,比如2天内的取值为1,3~7天的取值为5,等。
使用说明:需要引用J. Saramäki, E. A. Leicht, E. López, S. G.B. Roberts, F. Reed-Tsochas, R. I. M. Dunbar. Persistence of social signaturesin human communication. PNAS 111 (2014)945.
源数据出处:芬兰阿尔托大学计算机科学系