周涛 的最新文章
周涛 抽样偏差与算法偏差

抽样是调查研究工作中普遍采用的一种经济有效的方法。抽样的目的是以较小的代价分析总体,因此一个基本的要求就是要保证所抽取的样本对于总体而言具有充分的代表性,可以看作是从总体中完全随机抽取得到的。如果样本某些维度的特征和总体存在明显偏差,对总体的分析和估计就不再可信,我们称这种问题为抽样偏差。譬如如果总体样本中男性和女性各占50%左右,但是抽样得到的样本中男性占比高达70%,那么就存在明显的抽样偏差,基于该抽样的分析也是不可信的。又比如想通过分析微博的语言来看整个中国的情绪状况和幸福水平,就可能出现表示偏差,因为微博用户全体或随机抽样会对年轻人“表示过度”而对老年人“表示不足”。这个问题看起来应该很容易避免,但事实上是统计分析中最为常见也极难避免的一个问题。抽样偏差导致的最严重“调查灾难”来自于1936年《文学文摘》对美国总统大选的民调分析。从1916年到1932年,《文学文摘》毫无疑问是美国大选民调的第一高地——该杂志连续五届准确预测了美国总统大选的结果。1936年富兰克林·迪拉诺·罗斯福与艾尔弗雷德·兰登共同竞选美国总统。《文学文摘》杂志根据大约240万人参加的一次民意测验预测,兰登会以57%对43%的优势获胜。这个抽样的规模非常大,所以尽管在民调之前,绝大多数观察家认为罗斯福将毫不费力的获胜,但基于如此大规模抽样的民调结果依然让选举变得扑朔迷离。然而,实际的竞选结果是罗斯福以62%对38%的一边倒优势赢得了1936年的选举,连任总统——这与《文学文摘》的预测南辕北辙。在如此大的样本规模下给出如此离谱的预测,根源就是抽样偏差。事实上,《文学文摘》杂志邮寄了一千万份问卷,收到了大约240万份回复。《文学文摘》的调查对象很多都是从电话簿、汽车车主的登记资料中选取的,而在经济大萧条时期,电话和汽车并不像现在这样普遍,拥有汽车和住宅电话的人大多都是富人,而富人普遍都支持共和党的候选人兰登。正是因为抽样的偏差,导致了完全错误的预测。

2023-11-12 发布于 科学网 167 次阅读
周涛 大数据医疗应用综述[Appl. Sci.专栏第二十一篇发表论文]

我在Applied Sciences(综合性、交叉性期刊,CiteScore=3.70;IF=2.84)组织了一个Special Issue,大题目是“大数据分析进展”,比较宽泛。该专栏的推出主要是为了回应因为可获取数据和数据分析的平台、工具的快速增长给自然科学和社会科学带来的重大影响。我们特别欢迎(但不限于)下面四类稿件:(1)数据分析中的基础理论分析,例如一个系统的可预测性(比如时间序列的可预测性)、分类问题的最小误差分析、各种数据挖掘结果的稳定性和可信度分析;(2)数据分析的新方法,例如挖掘因果关系的新方法(这和Topic 1也是相关的)、多模态分析的新方法、隐私计算的新方法等等;(3)推出新的、高价值的数据集、数据分析平台、数据分析工具等等;(4)把大数据分析的方法用到自然科学和社会科学的各个分支(并获得洞见),我们特别喜欢用到那些原来定量化程度不高的学科。投稿链接:https://www.mdpi.com/journal/applsci/special_issues/75Y7F7607U

2023-11-04 发布于 科学网 181 次阅读
周涛 抽样偏差与算法偏差

抽样是调查研究工作中普遍采用的一种经济有效的方法。抽样的目的是以较小的代价分析总体,因此一个基本的要求就是要保证所抽取的样本对于总体而言具有充分的代表性,可以看作是从总体中完全随机抽取得到的。如果样本某些维度的特征和总体存在明显偏差,对总体的分析和估计就不再可信,我们称这种问题为抽样偏差。譬如如果总体样本中男性和女性各占50%左右,但是抽样得到的样本中男性占比高达70%,那么就存在明显的抽样偏差,基于该抽样的分析也是不可信的。又比如想通过分析微博的语言来看整个中国的情绪状况和幸福水平,就可能出现表示偏差,因为微博用户全体或随机抽样会对年轻人“表示过度”而对老年人“表示不足”。这个问题看起来应该很容易避免,但事实上是统计分析中最为常见也极难避免的一个问题。抽样偏差导致的最严重“调查灾难”来自于1936年《文学文摘》对美国总统大选的民调分析。从1916年到1932年,《文学文摘》毫无疑问是美国大选民调的第一高地——该杂志连续五届准确预测了美国总统大选的结果。1936年富兰克林·迪拉诺·罗斯福与艾尔弗雷德·兰登共同竞选美国总统。《文学文摘》杂志根据大约240万人参加的一次民意测验预测,兰登会以57%对43%的优势获胜。这个抽样的规模非常大,所以尽管在民调之前,绝大多数观察家认为罗斯福将毫不费力的获胜,但基于如此大规模抽样的民调结果依然让选举变得扑朔迷离。然而,实际的竞选结果是罗斯福以62%对38%的一边倒优势赢得了1936年的选举,连任总统——这与《文学文摘》的预测南辕北辙。在如此大的样本规模下给出如此离谱的预测,根源就是抽样偏差。事实上,《文学文摘》杂志邮寄了一千万份问卷,收到了大约240万份回复。《文学文摘》的调查对象很多都是从电话簿、汽车车主的登记资料中选取的,而在经济大萧条时期,电话和汽车并不像现在这样普遍,拥有汽车和住宅电话的人大多都是富人,而富人普遍都支持共和党的候选人兰登。正是因为抽样的偏差,导致了完全错误的预测。

2023-11-01 发布于 科学网 266 次阅读
周涛 相关性和因果性

相关性,是指两个变量的关联程度。一般地,从散点图上可以观察到两个变量有以下三种关系之一:两变量正相关、负相关、不相关。如果一个变量高的值对应于另一个变量高的值,相似地,低的值对应低的值,那么这两个变量正相关。反之,如果一个变量高的值通常对应于另一个变量低的值,那么这两个变量负相关。如果两个变量间没有关系,即一个变量的变化与对应的另一变量的变化之间没有明显关系,那么这两个变量不相关。因果性描述的是两个事件之间的作用关系,其中第一个事件被称为“因”,第二个事件被称为“果”,第二个事件的发生全部或者部分依赖于第一个事件的发生,而且第一个事件的发生在时间上必须严格早于第二个事件。如果用统计的语言来说,如果两个变量之间存在因果关系,则第二个变量(果)的取值全部或者部分依赖于第一个变量(因)的取值。

2023-10-27 发布于 科学网 148 次阅读
周涛 有关移动应急的数据质量分析[Appl. Sci.专栏第二十篇发表论文]

我在Applied Sciences(综合性、交叉性期刊,CiteScore=3.70;IF=2.84)组织了一个Special Issue,大题目是“大数据分析进展”,比较宽泛。该专栏的推出主要是为了回应因为可获取数据和数据分析的平台、工具的快速增长给自然科学和社会科学带来的重大影响。我们特别欢迎(但不限于)下面四类稿件:(1)数据分析中的基础理论分析,例如一个系统的可预测性(比如时间序列的可预测性)、分类问题的最小误差分析、各种数据挖掘结果的稳定性和可信度分析;(2)数据分析的新方法,例如挖掘因果关系的新方法(这和Topic 1也是相关的)、多模态分析的新方法、隐私计算的新方法等等;(3)推出新的、高价值的数据集、数据分析平台、数据分析工具等等;(4)把大数据分析的方法用到自然科学和社会科学的各个分支(并获得洞见),我们特别喜欢用到那些原来定量化程度不高的学科。投稿链接:https://www.mdpi.com/journal/applsci/special_issues/75Y7F7607U

2023-08-09 发布于 科学网 189 次阅读
周涛 检测社会问题的一种网络分析问题[Appl. Sci.专栏第十九篇发表论文]

我在Applied Sciences(综合性、交叉性期刊,CiteScore=3.70;IF=2.84)组织了一个Special Issue,大题目是“大数据分析进展”,比较宽泛。该专栏的推出主要是为了回应因为可获取数据和数据分析的平台、工具的快速增长给自然科学和社会科学带来的重大影响。我们特别欢迎(但不限于)下面四类稿件:(1)数据分析中的基础理论分析,例如一个系统的可预测性(比如时间序列的可预测性)、分类问题的最小误差分析、各种数据挖掘结果的稳定性和可信度分析;(2)数据分析的新方法,例如挖掘因果关系的新方法(这和Topic 1也是相关的)、多模态分析的新方法、隐私计算的新方法等等;(3)推出新的、高价值的数据集、数据分析平台、数据分析工具等等;(4)把大数据分析的方法用到自然科学和社会科学的各个分支(并获得洞见),我们特别喜欢用到那些原来定量化程度不高的学科。投稿链接:https://www.mdpi.com/journal/applsci/special_issues/75Y7F7607U

2023-07-25 发布于 科学网 205 次阅读
周涛 利用动态图卷积网络在时序网络中发现关键节点[Appl. Sci.专栏第十八篇发表论文]

我在Applied Sciences(综合性、交叉性期刊,CiteScore=3.70;IF=2.84)组织了一个Special Issue,大题目是“大数据分析进展”,比较宽泛。该专栏的推出主要是为了回应因为可获取数据和数据分析的平台、工具的快速增长给自然科学和社会科学带来的重大影响。我们特别欢迎(但不限于)下面四类稿件:(1)数据分析中的基础理论分析,例如一个系统的可预测性(比如时间序列的可预测性)、分类问题的最小误差分析、各种数据挖掘结果的稳定性和可信度分析;(2)数据分析的新方法,例如挖掘因果关系的新方法(这和Topic 1也是相关的)、多模态分析的新方法、隐私计算的新方法等等;(3)推出新的、高价值的数据集、数据分析平台、数据分析工具等等;(4)把大数据分析的方法用到自然科学和社会科学的各个分支(并获得洞见),我们特别喜欢用到那些原来定量化程度不高的学科。投稿链接:https://www.mdpi.com/journal/applsci/special_issues/75Y7F7607U

2023-06-18 发布于 科学网 238 次阅读
加载更多
没有更多数据了~
icon
周涛
计算机科学与工程学院  |  professor

周涛,博士,教授,电子科技大学互联网科学中心主任。于2005年获中国科学技术大学学士学位,2010年获瑞士弗里堡大学物理系哲学博士学位,师从汪秉宏教授和张翼成教授,主要研究方向为复杂性科学、网络科学、信息物理、人类动力学和群集动力学。