互联网时代的数据情缘(2)
李晓瑜  |  2018-11-14  |  科学网  |  834次阅读

——大数据应用中的“伪命题”

 

今天和大家谈一点儿大数据应用中“伪命题”的那些事。

最近不少的实体传统行业过来,到我们团队考察和交流,包括中国建筑西南设计研究院、中国联通总部、食品发酵设计研究院等。每次大家畅谈大数据和人工智能如何落地服务的时候,我都有一种很深切的感受,就是2013年兴起的大数据,经过一番泡沫化热炒之后,逐渐回归理性和真切。但是,凡事都是两面的,没有绝对。就像大数据的泡沫切实给社会的方方面面、各个行业带来了很多思维的冲击,掀起了全社会范围的一次思维变革,这是积极和正面的;每次泡沫,作为泡沫还是有其泡沫属性,那就是过度鼓吹、炒作和夸大了大数据的作用和价值。这一点在第一篇讲大数据的几个本质的时候,我已经稍加分析。不见得全面,可供参考。

 大数据和人工智能,给了很多非专业人士无限的想象空间,因为他们不清楚数据分析和挖掘工作的前提假设,不清楚信息、数据、知识的数学和软件定义,以一种移花接木的思维模式,创造出了很多的、完全理想的应用场景和需求。

这不禁让我想到一篇网络文章分享的,现在很多所谓的“专家”、“学者”是如何全职传播伪科学的,而我们拼尽全力,都是在兼职辟谣!

我记得2014年的时候,有个自称不差钱的社会老板,雄心勃勃想要打造一个顶级的、全新的智慧酒店。他设想的场景是:当每个入住酒店的宾客,在线上办理完入驻手续后,当他进入酒店智慧范围的时候,大堂里面就有自主服务的机器人,能实时和他打招呼。稍后,当他移步电梯的时候,电梯会自动为他打开,并且根据面部识别和云端数据计算,马上知道他的房间号,主动将其送至对应楼层。同时,会有语音指引他到对应的房间。进入房间后,窗帘自动打开,音乐播放器会根据他的网络行为轨迹以及历史消费行为,为他推荐他喜欢的音乐……其实这个场景,想想确实觉得美好!但是,问题来了,如果住店的宾客,不使用手机网上订房,怎么办?好,即便是他网上订房了,进入电梯的时候,一行多位朋友,其中一位不想马上进入自己的房间,而是随朋友去别的房间,怎么办?在进入自己房间的时候,他突然不想听音乐,怎么办?……无数的现实问题,接踵而至。其实不难想象,这个项目无意是会流产。只是在劝退这位老板的时候,还是很费了一番周折。因为,无论我们怎样解释这些场景应用,在技术上的不完善、在应用上的不实际的时候,他都觉得我们是在给他要求加价码,他不差钱,所以会很真诚的跟我们说,“钱不是问题”,我们只能苦笑个中的荒唐、可笑。更为不可思议的是,他信之弥坚“技术这么成熟了,这些肯定能解决;大数据时代来了,这些都不是问题”,我们还能说什么?!!

这几年,类似案例数不胜数!

这些案例都有一个统一的定义,那就是大数据应用“伪命题”。

首先,“伪命题”顾名思义,就是指不真实的命题。所谓不真实,有两种情况:1、不符合客观事实;2、不符合一般事理和科学道理。另一种解释是指没有意义的命题,无法断定其真假,既不是先天的分析命题,也不是可以通过经验判断的综合命题(引自:百度百科)。

有了这个基本认知,大家或许会联想那么大数据应用中的“伪命题”如何定义?为何会出现?如何避免?出现了,又该如何应对?

其实,我个人的观点,现在大数据和人工智能应用中的伪命题,根本原因是没有站在科学技术服务于社会经济生活的初心上。只是站在唯心、唯我、唯跟风的角度,盲目的将很多传统行业转型大数据驱动,认为有了大数据,原来的很多问题都迎刃而解了,大数据就是魔术师!这显然是行不通的。比如,企业转型为数据驱动,自然就想到将数据收集的越多越好,收集的越全越好。这是现在大数据落地过程中绝大部分人的认知,也是很多行业应用的大数据解决方案中体现的。这也是很多的科研团队问甲方的关键点“有没有足够的数据?”殊不知数据模型和方案都是理想化的,实操和数据治理是艰难的。整个数据科学链条每一环都是必不可少的,原始数据的采集、收集、汇总;数据的存储、管理、清洗、预处理等;数据的简单分析、挖掘;数据产品的构建、可视化等等。

 我们知道大数据强调全体样本而非抽样样本。如何才能做到全体样本?时间、空间数据如何保证数据没有遗漏、没有丢失?如何保证数据在一个广域的时间轴上,都是强关联的?数据集不会分离为一个个的子集吗?即便这些都满足理想模型,那么当数据越来越多,越来越全的时候,是否又会有维度灾难的问题,此时又该如何依托于业务逻辑,进行“抽丝剥茧”?古人云:大道至简!我想对于大数据分析,我们更加应该将其视为工具,运用工具的时候,借鉴哲学上的方法论,将复杂的问题简单化、将多维的问题降维化。所以,作为数据科研工作者,我建议应该从人才培养入手,为我们培养出的学生做更多的引领,让大家有行业业务意识。因为现在每个行业的大数据应用,都缺乏即懂行业又懂大数据的人才。但是这种跨界交叉人才又是急需的。

有了这一步,后续,我们在进行需求剖析的时候,敢于做数据维度、数据集的减法,“垃圾里面淘黄金”,前提是垃圾里面必须有黄金。如果通过业务分析,已经能够百分百断定没有黄金了,那么无论如何努力,终究找不到黄金。基于业务逻辑的“数据孤岛”,有时没有必要全部打通。

那么当伪命题已经出现,我们又该如何应对呢,很简单,你都已经意识到是伪命题了,直接叫停就是了。一切推翻,重新开始。

这也是我们做科学研究必须具备的精神——敢于质疑一切假设和前提!

希望我们都能具备鉴真去伪的能力,也希望数据科学能将生活变得更加美好!

银杏又黄了,愿你我安好~




文章原载于作者的科学网文章,所述内容属作者个人观点,不代表本平台立场。
本文经过系统重新排版,阅读原内容可点击 阅读原文