前记:
这篇或者即将的这系列博文,主要是缘于我们学院一帮可爱的孩子,在联络一些老师做些关于大数据、人工智能等的科普文章,所以才写,既然写了,也想分享给大家。
其实受邀给大家分享一点儿对于这个时代的标签之一——“大数据“的见解,我是诚惶诚恐的。因为众多的大咖都在布道、躬身实践,唯恐自己的浅薄认知,让人贻笑大方。不过想到知识的包容性,也就释然一些。今天我就以自己这几年对数据的应用认知、基础理论发展脉络的把握,和大家一起聊聊我认为的数据,数据分析与挖掘的核心问题,以及什么是数据价值再造,如有偏颇,欢迎大家批评指正。
2013年9月,我与国外导师Kang L. Wang教授辞行、谈及未来规划的时候,他像孩子般率真微笑道“Yu, do you know the Big Data?”哈哈,说实话当时我有点儿懵圈了~大数据?难道就是直译大数据?还是一个更加专业的术语?“Sorry, I’ve no idea. Professor, is there any story?”随即,王老师给我讲了一个美国FBI的例子,又讲了一个发生在UCLA的故事,这些都是他眼中的大数据。他还说,现在国内big data已经很火了,建议我回去可以好好思考。例子的具体细节不是很清楚了,但是大体明白就是美国也有所谓的大数据,但是他们并没有上升到一个十分夸张的万能概念角度,而是有很多实实在在的应用,更多是为了保护国家的信息安全,等等,诸如此类。这是我生平第一次与大数据有交集。
随后回国,准备博士毕业,申请留校等工作。至次年2014年3月份,留校已经敲定,可以正式留在信软学院嵌入式实时计算团队,去见团队负责人雷航教授的时候,他语重心长对我说“晓瑜,你的博士研究方向量子计算和量子电路综合,很显然工作后将不能继续了,因为团队没有这方面的任何储备。你需要有大局观,站在团队的发展规划上,重新立意自己的研究方向……现在团队有这样几个方向:嵌入式操作系统、大数据、图形图像等,你需要考虑一下选择哪个?”其实这几个都不是我擅长的,第二次听到“大数据”已经不觉得陌生了,至少已经出现过一次了,我当时鬼使神差般回答道“雷老师,我就选大数据吧~”哈哈哈,人生很多时候就是各种戏剧,各种无常,似乎这才符合人生!
就这样我开始真正结缘、走近、认知、熟悉大数据,也开始真正的作为一个参与者而不是旁观者,来审视、建设、推动、批判这个新兴的交叉学科研究方向。一直以来,我都觉得自己有一个很强大的性格特质,那就是“随遇而安”而又适应性极强,最重要是总能活下来,姑且这是自我阿Q的一种精神激励法吧~就像从本科的EE到研究生的CS,再到博士期的Quantum Computing,自己还是自得其乐的。当然,这期间也会遭到质疑,这样会不会不够专注?会不会在哪个阶段就毕不了业呢?其实,我还真的没有想那么多,只是觉得喜欢,或许就是无知才无畏,无畏才有更多的创造力!
从2014年开始,可以称得上是我的大数据元年,我开始穿梭在国内顶级的几个大数据国际会议现场活动中,开始大量快速的阅读和大数据相关的新闻、图书、paper,其实只要你肯花时间,找到关键点,很快就能切入。我用了半年的时间,对于国内大家对大数据的认知程度、大数据的发展现状、大数据在产业界、学术界、政界等的天花板也了解的七七八八。随后,就开始深入建设我们自己的学术科研队伍,我们几位老师和学生给我们的大数据小组取名SunData Group(尚数据工场)。队伍从一开始只有2位老师、2位本科生;到1年后,我们有3位老师、5位研究生、10+位本科生;再到现在的5位老师、5位博士生、30+研究生、100+优秀本科生。这个成长速度和我们自身的努力分不开,但是还远远没有驻足,因为我们只是完成了长胖的过程,还没有完成长高、健美的过程。和大家分享这些经历,主要是想告诉大家,大数据,离你我并不远,也不神秘,只要你愿意,你也可以像我们一样,快速融入,并能深入和升华。
好,我们言归正传。今天主要和大家探讨如下几个问题:
1、什么是数据,什么是大数据
数据某种程度上是对我们周围的物理信息世界的一种符号抽象,所以数据包罗了各种信息,有用的、无用的、有序的、无序的、显式的、隐式的……同时与数据千丝万缕扯不清的两个概念就是:信息与知识,在我个人看来,数据好比原石,信息好比初步磨出的翡翠,而知识则是经过精雕细琢之后的一件翡翠艺术品。
自2003年世界进入大数据元年开始,各种机构、各路学者陆续给出了对大数据的解读,最后大家初步形成共识的是,大数据的4V+O特征,分别对应了:volume(体积,数据尺度大)、velocity(高速的数据in and out)、variety(数据类型的多样化)、veracity(数据的准确性)、online(线上数据实时性等)。其实有些场合我们也会增加一个V,那就是value(价值),因为无论是数据科学处理的终极目标,还是大数据处理的最终结果,如果没有价值体现,这项工作都将毫无意义。
说到大数据的首要条件就是数据量大,那么究竟多少算得上是大数据呢?我们知道不同行业领域的数据,其尺度存在较大的差别,比如社交媒体产生的数据量就远远超过我们高校学生数据。因为社交媒体含有大量的音频、视频、图片等大容量文件,而高校学生服务数据,多以电子表格、交易记录等为主,数据量基本以KB起,而前者动辄几百个GB,甚至达到TB。所以这几年学术界和产业界呼声较高的一个界定,基本上在PB级或PB级以上才算得上大数据尺度。数据的容量尺度为:KBàMBàGBàTBàPBàEBàZB……
同样大数据由于其多样性,也决定了大数据处理的时候,面临的数据类型不再是单纯的结构化数据,还有更多的半结构化、非结构化数据,如我们读的报纸、看的视频、听的广播和歌曲、拍的照片等,这些都称为非结构化数据。所以,大数据处理除了面临数据类型的挑战,还有就是关于海量数据存储的问题。其中,云存储与分布式文件存储等技术,有效的解决了这一问题。大数据时代的来临不是偶然,而是其他方方面面的技术发展带来的必然结果。试想二十年前信息高速公路刚刚提出来的时候,没有想到数据爆炸如此迅猛,自然,数据尺度很难达到所谓的“大”;十年前如果没有云计算技术的落地,今日如此海量数据,该如何存放,又该如何快速计算;近些年如果没有深度学习、机器学习、神经网络等核心技术算法的快速发展,如何支撑大数据的应用落地,等等。
2、大数据的核心问题
说到这里,不得不把大数据的核心问题单独拿出来与大家探讨。与传统的概率统计、机器学习相比,大数据处理有这样几点是需要我们初学者明确的:
(1)全体数据,而不是样本数据
大数据研究的是全体数据的问题,而不是抽样样本的相关问题。这一点就决定了数据越多越好、数据越全越好,因为只有这样才能更加接近大数据的全体数据,才能更加接近事物的真相和本质。
(2)关联关系,而不是因果关系
大数据研究的是数据间的关联关系,而不是传统的因果关系。因果关系我们很明确,就是有这个结果,一定有导致其产生的原因,这个因果关系在辩证唯物主义上是普适的,是大家认知所接受的。然而,关联关系是完全无关因果的一种逻辑,正如大家耳熟能详的“啤酒与尿布的故事”、“蝴蝶效应”等。我们通过发现凡是购买了尿布的消费者,一般也有很大的概率购买啤酒这一有趣事实,来指导超市的货架展销策略,将尿布和啤酒放在靠近的区域,进而提升了销售额。这里你就很难说,因为他买了尿布,所以他又买了啤酒;我们只能说买了尿布,进而买啤酒的概率很大,二者有一定的关联关系。这就是突破我们传统认知的关联关系,也是我们要开始进行大数据处理必须学习的。
(3)预测而不是断定
当然了大数据是有很强大的功能,帮助我们挖掘很多隐藏在数据背后的真相,但是它也不是万能的!就好像我之前在博客里提到的一本网络小说《当我谈论算命时,我想谈的是大数据》,暂且不论这本书是否严谨,但是大数据的核心问题之一,与之有异曲同工之妙。大数据处理、分析、挖掘,最后的结果都是对下一步,或者之后即将发生事情的一种预测,既然是预测就无法做到百分百准确,总是存在概率问题。这一点就有点儿不同于传统的统计分析,并不能够准确给出事物发生的条件概率。甚至通过某些参数的调优工作,只能无限逼近,却永远无法到达。既无奈,又让人执着!
(4)决策支持是价值体现
大数据处理的终极目标是实现对决策者的客观第三方辅助支持,那么这就回到了所谓的人工智能中真正的智能决策问题上,这个open question,至今也是争论不休。何谓真正的智能,何为人工智能?对于这两个问题,我们今天暂且不去过多讨论。
首先看下大数据预测与决策支持的问题,我们知道大数据一定是面向于行业和领域应用的。因为很多时候,抛开数据背后的业务逻辑,我们是无法解读出更多数据隐含的信息的。那对于数据分析师而言,既要理解业务逻辑,同时又要能够将数据分析、挖掘的结果,作为一个有利的辅助支撑材料,提供给决策者,以便综合做出最优的决策。大数据处理的价值体现,就在于提供的这个决策到底能起多大的分量。
由于时间和篇幅的有限,下一篇,我们将一起笑谈数据分析与数据挖掘处理的几类核心问题,同时聊聊大数据与物联网、云计算等的关系。