最近盛杨燕新出的译著《数据场效应》
http://item.jd.com/1719942332.html
---- 我的序言如下 ----
成为大数据企业——代序
刚刚拿到译稿的时候,我傻眼了。作者整本书都围绕着“Code Halo”这个概念——这是一个什么毛咚咚?硬着头皮往下读,套用译者序里面不太客气的一个评价,“换汤不换药”,原来就是指各种各样数据的集合。当然,这个概念还不完全等同于大数据,它应该算作是大数据在商业领域的一个垂直分支。读者捧起这本书,相比于泛泛言大数据的著作,应该能够看到更多、更细致的商业应用方面的案例和分析。
在本书中,作者想要表达的核心观点是“是否具备大数据能力是一个企业生死攸关的事情”,作者想要回答的关键问题是“企业如何才能具备大数据能力”。考虑到本书丰富的案例和盛盛的金牌翻译,我觉得价值至少超过了定价。但是,作者的思路和谋篇就像未经处理过的大数据一样,价值很大却结构混乱,所以,我这里不妨帮助作者回答一下他希望回答的问题。
作者应该是很有情怀的,所以才会使用Halo这个词——这个词让人想起了天使头上的光环。上帝创造这个世界用了六天时间,成为一家大数据的公司,也是一样的费力。
第一天:全面数据化。“数据化”浪潮是整个大数据时代的起点,它强调数据就是资产,记录一切可以记录的数据,一定会产生巨大的价值。显然,数据化是一个企业能够通过深入数据分析,实现自身优化的基础。我去长虹调研的时候,他们告诉我,长虹在自己的生产线上,通过大量传感器,记录生产环境的温度、湿度、粉尘度、振动强度、噪音强度等等,通过这些量化指标与产品质量的关联分析,得到影响产品优品率和良品率的关键因素,再进一步通过控制环境因素,明显提高了产品的优品率。企业在日常的经营管理过程中,通过办公自动化系统(OA系统),很多内部即时通讯、邮件往来、工作分配、业务文件上传下载等等日志数据都被记录下来了。这些数据就是宝贵的财富!我们给多家企业提供过相关的服务[1][2],通过对这些数据的分析,能够更精确地预测员工的离职和升职,更精确地预测员工和部门的绩效水平,帮助企业员工通过基于关联用户和文本智能匹配快速找到对自己现有业务和客户有参考价值的案例和文件,等等。总的来说,全面数据化要求企业采集存储企业生产经营中的一切数据,形成企业数据资产的概念。
第二天:建设数据管理平台。有的读者一听到数据管理平台,就认为是要花一大笔钱建设数据中心,把数据存起来。数据管理平台肯定要有数据中心的存储灾备功能,但是它的作用远不止此。首先,数据管理平台要为企业量身定做一套数据组织和管理的解决方案,特别是企业各部门之间数据的共融共通,以及企业数据怎么样进行索引和关联。很多大企业,各部门之间数据的格式、形态、ID系统都不一致,部门之间无法交换数据,甚至大部分的数据表连主键和外键[3]都没有,数据之间不可能形成有效的组织。这些都是数据管理平台要做的事情。其次,数据管理平台是由业务所引导的,先进的流数据智能处理系统,要为业务提供直接的支撑。很多时候,数据管理平台怎么搭建,需要深度了解企业最重要的核心业务,以及各示范性的重要应用为牵引搭建数据管理平台。例如针对零售类的企业,就应该形成以消费者为中心的索引和画像系统,主要支持精准广告、智能客服等等核心业务,其次才是以商品为中心的索引系统,主要支持物流和仓储优化等等业务。最后,数据管理平台的建设要量体裁衣,强调鲁棒性和可扩展性,没有必要一开始就投入大量经费,因为硬件成本的下降也很快,不用想太多半年甚至一年以后的事情。
第三天:建立海量数据的深入分析能力。要想建立针对多元异构、跨域关联的海量数据,通过深度分析挖掘获取价值的能力,主要要培养两个方面的能力。第一是非结构化数据的分析处理能力,包括文本、音频、图像、视频、网络、轨迹等等数据。受过传统商务智能和统计学训练的人,对于处理结构化数据非常在行,但是处理非结构化数据往往比较头痛——譬如分布好做抽样,网络怎么进行抽样[4]?所以,对于常见的,特别是和企业自身业务有密切关系的非结构化数据,一定要有一支队伍能够挖掘其间价值,甚至将其转化为结构化的数据。第二是大数据下的机器学习的能力。绝大部分我们可以想象到的应用问题,其本质都是分类或者预测问题,包括:个性化推荐、精分营销、员工绩效管理、银行信用卡征信、小微企业贷款、生产线控制、精准广告、网点选择……解决这些问题最有力的武器就是机器学习!特别是在大数据环境下,很多高阶的核函数慢得不行,大量的学习都必须采用线性学习器[5];而且数据非常多,很多时候都是在强噪音环境下寻找弱信号,单一分类器往往效果一般,必须要做集成学习——举个例子,在Netflix举办的百万美元电影个性化推荐大赛中,我们做过很优美的单模型[6],但是比起最后获胜的集成学习模型[7],至少从精度上来说是弱爆了!有的读者要问了,高性能存储计算难道不重要吗,不得有一些懂Hadoop,懂Spark的技术高手吗,要不要在CPU阵列里面加几块GPU甚至可编程逻辑阵列呢?这个也重要,但是企业如果实力足够,可以采用成熟的解决方案,国际上顶尖的大数据服务商,例如IBM、HP、Intel都有不错的方案。但是我说的一二两点,是给企业培养人才和能力,而且至今也没有特别好的成熟的解决方案,所以更重要。最后,企业怎么建立这样的能力呢?首要办法是能够招聘到一流的大数据人才——多花点钱和股票。第二选择就是以显示度项目为牵引,通过外部合作,培养自己的数据分析团队,既解决问题,又学习能力。企业做这样的合作,不要老想着一次性把所有东西都外包出去,要探索新方式,看看能不能成立联合小组共同进行研发,多投入一些人去学习。有一些供应商,特别是在某些方面有专长,但是还不属于国际一流的供应商,在发展过程中是能够接受企业这种要求的。
第四天:建设外部数据的战略储备。企业走到这一步,就有点现代大数据企业的理念了,因为它不再仅仅局限于自己业务的数据了,开始看外面的世界了——很多大数据的重大创新,都是来源于把数据放在产生数据的业务体系之外去应用[8][9]。举个例子,一个服装企业要解决设计生产的规划问题,仅仅看自己的销售记录还不够,要不要看看淘包、天猫、京东上服装的整体销售,了解什么款式、什么颜色、什么价位的服装在哪个地区最受欢迎呢?这就需要外部数据了!事实上,外部数据对于市场拓展、趋势分析、竞品分析、人才招聘、用户画像、产品推荐等意义重大,而网站、论坛、社交媒体、电商平台上聚集了很多有重要价值的公开数据,这些数据中的大部分可以通过分布式深网爬虫技术直接高效采集。所以,企业要有意识地开始建立自己的外部数据战略储备,不要“数到用时方恨少”。一方面,企业可以自建具备采集、清洗、存储、索引等功能的自动化系统,自动积累外部数据;另一方面,企业可以通过和数据供应商合作,得到一些亟需的数据。要做好前者,又需要验证码的高效识别能力,就是第三天我们要建立的能力一。而如果第一天、第四天的内外数据都有了,在第二天的平台下进行管理,用第三天的能力去挖掘分析,那这家企业就不得了了——用本书的语言说,就可以拥抱Code Halo了。
第五天:建立数据的外部创新能力。企业很容易局限在自己的业务中不能自拔。所以,让企业理解外面的数据能够帮助解决自己业务遇到的问题比较容易,因为企业主和员工们每天都在想怎么解决这些问题,反过来,让他们去思考自己业务的数据能不能在其他地方产生重大价值,帮到其他企业,他们就没有那么敏感了。其实,这些创新性的想法往往能够带来新的巨大价值。譬如,Google利用自身搜索业务产生的数据,进行电价和传染病流行情况的预测[10],取得了巨大成功。事实上,企业通过智能终端、传感网络、物流记录、网点记录、电子商务平台等等获得的第一手数据,很多都可以用于支持在跨领域交叉销售、环境保护、健康管理、智慧城市、精准广告、房地价预测等方面的创新型应用。把握住这些机会,就能够放大企业当前业务的价值,带来持久可观的收益。
第六天:推动自身数据的开放与共享。伟大的企业懂得如何把最聪明的人集合起来,为自己服务。企业有了大量数据和一定的分析能力后,不能固步自封,而要充分借助社会的力量,尽最大可能发挥数据潜藏的价值。Netflix曾经公开了包含50多万用户和17770部电影的在线评分数据,并悬赏100万美元奖励能够将Netflix现有评分预测准确度提高10%的团队[11]。现在的Netflix已经不再是一家电影在线租赁公司,而是国际一流的大数据企业了。除了法律上因为安全和隐私不能开放共享的数据,相当部分都能够以各种方式开放出来——这种开放会带来更大价值!国际化的如Kaggle(英文,www.kaggle.com),国内如DataCastle(中文,www.pkbigdata.com),都是很有影响力的大数据创新竞赛平台。举个例子,电子科技大学大数据研究中心曾经在DataCastle上举办过学生成绩预测的比赛,总奖金才50000元,却吸引了735支队伍近2000名参赛者参加比赛,其中近200只队伍来自于985/211知名高校。这里面最佳解决方案的思路和方法已经被应用于教育大数据定量化管理的产品模块中了。还有一种最近新出的比赛方式,就是企业给出数据集的描述和样本数据,参赛选手设计创新型商业应用。企业通过这些数据开放计划,可以学习最先进的算法和最具创新性的数据应用思路,实现自身数据的价值最大化。
书长序短,目的都是一个,希望读者能够从中领悟到企业的大数据之路!如果说有那么几家企业,受到这本书的启发,在商业模式、产品、业务方面产生了可观的价值!那么作者、译者甚至我这个作序的人,都会感到无比欣慰!
以为序!
[1]高见,张琳艳,张千明,周涛,“大数据人力资源:基于雇员网络的绩效分析与升离职预测”,《社会物理学:社会治理》,北京,科学出版社,2014年,38-56页。
[2]张琳艳,高见,洪翔,周涛,“大数据导航人力资源管理”,《大数据》,2015年第1期,2015012。
[3]主键是主关键字的缩写,指表中的一个或多个字段,它的值用于唯一地标识表中的某一条记录,而外键是用于关联其他表格主键的共同关键字。
[4]M. P. H. Stumpf, C. Wiuf, R. M. May, Subnets of scale-free networks are not scale-free: samplingproperties of networks, PNAS 102 (2005) 4221-4224.
[5]R. E. Fan, K. W. Chang, C. J. Hsieh, X. R. Wang, C. J. Lin, LIBLINEAR:A library for large linear classification, J. Machine Learning Res. 9 (2008)1871-1874.
[6]T. Zhou, Z. Kuscsik, J.-G. Liu, M. Medo, J. R. Wakeling, Y.-C.Zhang, Solving the apparent diversity-accuracy dilemma of recommender systems,PNAS 107 (2010) 4511-4515.
[7]R. M. Bell, Y. Koren, C. Volinsky, All together now: A perspectiveon the Netflix prize, Chance 23(1) (2010) 24-29.
[8]苏萌,周涛,“大数据商业革命”,《哈佛商业评论》,达沃斯专刊,2012年。
[9]周涛,“大数据:商业革命与科学革命”,《半月谈》,2013年7月。
[10]J. Ginsberg, M. H. Mohebbi, R. S. Patel, L. Brammer, M. S.Smolinski, L. Brilliant, Detecting influenza epidemics using search enginequery data, Nature 457 (2009) 1012-1014.
[11]J. Bennett, S. Lanning. The Netflix Prize, Proceedings of KDD cupandworkshop, ACM Press, p. 35, 2007.