(初稿,将在《大数据中国》刊登)
中国大数据投资分析:落后国外一年半,且泡沫更多
张琳艳
(北京云基地,大数据实验室)
张千明,周涛
(电子科技大学,互联网科学中心)
大数据是基于多源异构、跨域关联的海量数据分析所产生的决策流程、商业模式、科学范式、生活方式和观念形态上的颠覆性变化的总和。在一切都被“数据化”的趋势下,大数据不再只是谷歌、亚马逊这类大公司的法宝,专注于数据服务或数据分析的创业公司已得到不少风险资本家的青睐。
我们分析了近几年获得融资或被收购的大数据创业公司,发现在核心业务上国内大数据企业与国外当前存在较大差异,但却与国外早些时候的大数据初创企业存在着较高的相似性;相较于国外,国内大数据企业在硬技术方面比较欠缺,更多的是大数据的行业应用,而这些应用究竟是否真的属于大数据,尚有待商榷。整体来看,国内大数据的发展要落后国外一年半左右,且泡沫更多。
大数据投资领域
大数据包括从数据处理能力、数据对象形态和数据分析方式,到应用理念上的所有重大变革,其复杂性决定了大数据创业公司有着多种不同的方向。我们从国内外主流科技投资资讯媒体搜索以“大数据/融资”为标签的新闻稿件,然后再人工判断搜索结果中描述的公司是否符合大数据公司的标准。最终我们确定了35家在2012年1月到2013年7月期间获得融资的国内企业,以及67家在2009年5月到2013年7月期间获得融资的国外企业,所有企业名录及分类请参加附表。
从这些新闻稿中,我们提取并列出了最重要的关键词——数据、分析、服务、平台、企业和应用,它们从侧面反映出这些企业的主营业务。为了对主营业务领域有更清晰地认识,我们将业务领域进行了多级分类。顶级的两个大类分别为基础设施和应用产品。进一步地,我们将基础设施细分为信息采集、存储、分析和计算,恰对应于信息的整套基本处理流程;将应用产品细分为垂直类的行业应用和工具类的分析应用。更细致地,我们将类别精确到具体的业务种类和分析方法及对象上。整个大数据投资方向的分类树如图1所示,为了便于读者理解,我们加入了各对应类别最具代表性的企业范例。
图1:大数据投资领域分类树。
图2:所有国内外大数据企业在基础设施方面的分布图
国内大数据创业和投资落后国外约一年半
对比图2和图3,可以看到,大部分创业公司的主要业务都集中于应用产品类,尤其是应用分析方向。国内的基础设施对应用分析的比值为1:35(因为有一家公司同时被划分到了决策咨询和广告领域),国外是18:49,后者明显占优。另一方面,可以看出在基础设施方面国内大数据创新明显的欠缺。
图3:所有国内外大数据企业在应用产品方面的分布图
图4:国外大数据企业(2009年6月~2011年12月)与国内大数据企业(2012年1月~2013年6月)所在领域的对比
我们以2012年为分割点,将国内企业在各领域的分布与2012年前、后的国外企业分别进行对比,其中与2012年之前(2009年6月至2011年底)的图示对比情况如图4所示。用图4中第一行数字构成一维向量以表征国外大数据创业领域分布,第2行数字类表征国内大数据创业领域分布,这两列向量的余弦相似度高达0.8103(相似度的值越靠近1,说明相似度越高),不过国内的领域分布与近两年的国外企业领域分布的余弦相似度却仅有0.6319。由此可见,2012年初到2013年中国内大数据企业的领域分布与2009年中到2011年底国外大数据企业领域分布情况非常接近。
图5:一定时间范国外每月获得投资的大数据企业数量分布图
因此,国内的大数据创业与投资发展之路并非独树一帜,而且从发展历程上来讲,与国外2009年中到2011年底期间的发展比较接近。事实上,在2009年以前,国外对于大数据的投资案例并不多见,直到2011年2月份才出现了较为密集的连续投资,而国内直到2012年7月才出现连续的投资案例,如图5所示。粗糙地讲,国内大数据领域的创业和投资理念大约要落后于国外一年半的时间。
大数据泡沫
大部分创业公司的主要业务都集中于应用产品类的应用分析方向,且国内更甚——国内与国外在基础设施方面1:18的差距无疑暴露了国内企业在基础设施领域的短板。从技术上看,信息的存储、接口设计、加速计算等基础设施类的业务非硬技术不能支撑,相对来说,垂直应用类的产品,一个成熟的工程开发团队即使未得其神,也可复制其形;从资金方面来看,基础设施类公司最新一轮的平均融资金额为2234.12万美元,应用分析类对应的平均融资金额达到了2164.18万美元(其中Mu Sigma获得了1.08亿E轮融资,去掉此案例后的平均值为1866.4万美元),而行业垂直类却仅有872万美元;从时间上看,国外大数据的基础设施建设并非一开始就出现,也是经过长期的应用产品的积累期,需要有技术和理念的成长。因此,国内创业公司的这种落后是成长的必经之路。
相比技术硬实力驱动的基础设施创新型企业,垂直行业应用类的大数据企业在技术上的创新尽管新颖有趣,但是壁垒不足够。
以行业垂直领域中招聘类的产品为例,TalentBin从Facebook、Twitter、Google+、Meetup、Quora 等社交网站和Github、Stack Overflow 等垂直社区上的大量用户数据来收集一个人身份碎片,利用 PubMed 和 Behance 的信息对药物学、生物学和设计类职位的应聘人做初步评估;InternMatch收集了许多数据,包括学生兴趣、成绩、技能,以及与其简历匹配的职位等,利用数据驱动算法来向学生推荐就业机会;国内的智拓通达则整合各大社交平台的用户数据、行为数据和 UGC 内容,为企业和个人用户提供定制化服务;歪伯乐则是根据工作信息将新浪微博好友划分为工作圈并通过社交关系实现“人脉招聘”;数联寻英是通过分析社交网络数据,分别从职业背景、专业能力、好友匹配、性格匹配、职业倾向、工作地点、求职意愿、信任关系和行为模式这9个维度对潜在求职者进行全方位刻画,通过众包模式,以游戏的方式更好的帮助HR组织员工参与到职位内推任务中。
再以大数据分析为基础的决策咨询类公司为例,Mu Sigma擅长市场、供应链和风险分析等服务,覆盖面跨9个行业,为企业客户提供专业数据分析和数据决策支持服务;Dataminr则帮助企业客户在数百万条微博中搜寻重要的微博,其功能包括仪表盘、截图、告警细节等,其算法综合考虑了 Twitter 用户的位置、信誉、新闻外部引用、市场容量、市场价格等因素来提供告警信息;晶赞科技是一家面向大型企业的数字营销服务公司,拥有一系列的数字营销管理和分析产品,比如新近推出的实时再营销广告平台,它通过对用户标签和访问历史进行数据分析,向用户投放个性化的广告吸引他们再次访问。
上述的企业往往拥有很好的行业知识,但是其声称的数据采集能力和算法分析能力,其实并不具有特别突出的壁垒。绝大部分的技术,还是大家耳熟能详的文本分析,结构化数据下的机器学习和关联预测模型,网络信任模型等等。在我们调查案例的过程中,我们也确实发现有这么一些企业,他们一边声称自己是大数据公司,然而其当前的业务却仅仅是查询搜索,甚至主要依赖于人工呼叫服务,所声称的那些与大数据相关的业务却还停留在酝酿、设想当中。有一些企业,其概念和技术都很不错,但是自己不产生数据,而且数据来源单一,国内往往严重依赖于新浪微博,国外往往严重依赖于Facebook或Twitter,其潜在的风险都很大。即便在本文收录的大数据企业中,也存在一部分企业,它们并没有真正的大数据分析技术实力,而是以大数据分析为噱头获取融资以谋求发展,这类企业在国内垂直行业应用中占据相当份额。总的来看,目前的大数据创业和投资中已经存在一定的概念泡沫,而且在技术稍差的国内企业中泡沫更多——这在很大程度上也是因为投资人团队往往并不了解数据挖掘,异构数据分析和机器学习等方面的学术和技术前沿。
做有品位的大数据创业
国内大数据的发展虽然落后国外约一年半,并且目前多集中在泡沫较多的垂直应用领域,但是这个差距并不可怕,基本上可以说还处在同一起跑线上。我们已经看到在一些技术壁垒较高的应用分析领域,国内已经有企业成功的获得了B轮融资。比如做图像购物搜索的淘淘搜和利用大数据打造个性化推荐及消费偏好平台的百分点科技。因此,我们仍然可以较为乐观的认为中国和国外在大数据发展上都处在同一个上升阶段,方兴未艾!我们需要以良好的心态正视国内大数据创业公司在技术和发展上与国外的差距,并以更加开放和广阔的心态来开展有价值、有难度、有品位的大数据创新,减少追逐概念和资本的假创新。特别地,大数据更有价值的创新,可能还在医疗卫生、食品安全、工业制造、农业养殖等传统领域,因为从无到有、从0到1的创新,带来的价值增量更加可观。希望我国的创业者和投资人更多关注具有颠覆性的硬技术创新以及大数据在“似乎不可能用到大数据”的传统行业的巨大价值,通过努力去影响甚至改变一个大领域的产业范式。
附表:调查分析所涉及的中外大数据创业型企业名录及领域分类
名称 |
分类1 |
分类2 |
分类3 |
DataStax |
基础设施 |
存储 |
存储加速 |
Deep |
基础设施 |
存储 |
存储加速 |
基础设施 |
存储 |
存储加速 |
|
ScaleBase |
基础设施 |
存储 |
存储加速 |
Delphix |
基础设施 |
存储 |
存储加速 |
Commerce Sciences |
应用产品 |
行业垂直 |
电子商务 |
StylistPick |
应用产品 |
行业垂直 |
电子商务 |
FriendFeed |
基础设施 |
采集 |
多渠道采集 |
Sprout Social |
基础设施 |
采集 |
多渠道采集 |
StumbleUpon |
基础设施 |
采集 |
多渠道采集 |
DataSift |
基础设施 |
采集 |
多渠道采集 |
DNANexus |
基础设施 |
采集 |
多渠道采集 |
Qwerly |
基础设施 |
采集 |
多渠道采集 |
GoodData |
基础设施 |
分析 |
分析工具 |
Hortonworks |
基础设施 |
分析 |
分析工具 |
Cloudera |
基础设施 |
分析 |
分析工具 |
MapR |
基础设施 |
分析 |
分析工具 |
WibiData |
基础设施 |
分析 |
分析工具 |
ParAccel |
基础设施 |
分析 |
分析工具 |
巨鹿移动 |
应用产品 |
行业垂直 |
广告 |
力美广告 |
应用产品 |
行业垂直 |
广告 |
Timeet |
应用产品 |
行业垂直 |
广告 |
比酷科技 |
应用产品 |
行业垂直 |
广告 |
秒针系统 |
应用产品 |
行业垂直 |
广告 |
Geo |
应用产品 |
行业垂直 |
广告 |
新数网络 |
应用产品 |
行业垂直 |
广告 |
品友互动 |
应用产品 |
行业垂直 |
广告 |
Medialets |
应用产品 |
行业垂直 |
广告 |
Chango |
应用产品 |
行业垂直 |
广告 |
应用产品 |
行业垂直 |
广告 |
|
TellApart |
应用产品 |
行业垂直 |
广告 |
WordWatch |
应用产品 |
行业垂直 |
广告 |
OneRiot |
应用产品 |
行业垂直 |
广告 |
DataTorrent |
基础设施 |
计算 |
计算加速 |
Heap |
应用产品 |
应用分析 |
决策咨询 |
KISSmetrics |
应用产品 |
应用分析 |
决策咨询 |
Dataminr |
应用产品 |
应用分析 |
决策咨询 |
Elasticsearch |
应用产品 |
应用分析 |
决策咨询 |
Connotate |
应用产品 |
应用分析 |
决策咨询 |
应用产品 |
应用分析 |
决策咨询 |
|
10gen |
应用产品 |
应用分析 |
决策咨询 |
Prior Knowledge |
应用产品 |
应用分析 |
决策咨询 |
Aktana |
应用产品 |
应用分析 |
决策咨询 |
Euclid |
应用产品 |
应用分析 |
决策咨询 |
晶赞科技 |
应用产品 |
应用分析 |
决策咨询 |
精硕科技 |
应用产品 |
应用分析 |
决策咨询 |
应用产品 |
应用分析 |
决策咨询 |
|
应用产品 |
应用分析 |
决策咨询 |
|
cmcc.in/沙时网络 |
应用产品 |
应用分析 |
决策咨询 |
杭州数云/华院数云 |
应用产品 |
应用分析 |
决策咨询 |
Infomorrow |
应用产品 |
应用分析 |
决策咨询 |
Syncapse |
应用产品 |
应用分析 |
决策咨询 |
Claritics |
应用产品 |
应用分析 |
决策咨询 |
Viralheat |
应用产品 |
应用分析 |
决策咨询 |
Visible Measures |
应用产品 |
应用分析 |
决策咨询 |
Palantir |
应用产品 |
应用分析 |
决策咨询 |
Mu Sigma |
应用产品 |
应用分析 |
决策咨询 |
Zoomdata |
应用产品 |
应用分析 |
可视化 |
Visual.ly |
应用产品 |
应用分析 |
可视化 |
Roambi |
应用产品 |
应用分析 |
可视化 |
MeLLmo |
应用产品 |
应用分析 |
可视化 |
SocialGrapple |
应用产品 |
应用分析 |
可视化 |
Trifacta |
基础设施 |
存储 |
跨平台接口 |
Hipmunk |
应用产品 |
行业垂直 |
旅游 |
蚂蜂窝 |
应用产品 |
行业垂直 |
旅游 |
出门儿 |
应用产品 |
行业垂直 |
旅游 |
穷游网 |
应用产品 |
行业垂直 |
旅游 |
千夜旅游网 |
应用产品 |
行业垂直 |
旅游 |
Kukunu |
应用产品 |
行业垂直 |
旅游 |
Face++ |
应用产品 |
应用分析 |
图像识别 |
DeepGlint格灵深瞳 |
应用产品 |
应用分析 |
图像识别 |
numberFire |
应用产品 |
应用分析 |
推荐搜索预测 |
Attivio |
应用产品 |
应用分析 |
推荐搜索预测 |
Qloo |
应用产品 |
应用分析 |
推荐搜索预测 |
Boxever |
应用产品 |
应用分析 |
推荐搜索预测 |
应用产品 |
应用分析 |
推荐搜索预测 |
|
百分点科技 |
应用产品 |
应用分析 |
推荐搜索预测 |
应用产品 |
应用分析 |
推荐搜索预测 |
|
应用产品 |
应用分析 |
推荐搜索预测 |
|
应用产品 |
应用分析 |
推荐搜索预测 |
|
应用产品 |
应用分析 |
推荐搜索预测 |
|
应用产品 |
应用分析 |
推荐搜索预测 |
|
应用产品 |
应用分析 |
推荐搜索预测 |
|
应用产品 |
应用分析 |
推荐搜索预测 |
|
Ness |
应用产品 |
应用分析 |
推荐搜索预测 |
应用产品 |
应用分析 |
推荐搜索预测 |
|
应用产品 |
应用分析 |
推荐搜索预测 |
|
应用产品 |
行业垂直 |
医疗 |
|
应用产品 |
行业垂直 |
医疗 |
|
大姨吗 |
应用产品 |
行业垂直 |
医疗 |
应用产品 |
行业垂直 |
医疗 |
|
MapMyFitness |
应用产品 |
行业垂直 |
医疗 |
应用产品 |
行业垂直 |
招聘 |
|
应用产品 |
行业垂直 |
招聘 |
|
应用产品 |
行业垂直 |
招聘 |
|
应用产品 |
行业垂直 |
招聘 |
|
数联寻英 |
应用产品 |
行业垂直 |
招聘 |
若邻网 |
应用产品 |
行业垂直 |
招聘 |
天际网 |
应用产品 |
行业垂直 |
招聘 |
Ybole |
应用产品 |
行业垂直 |
招聘 |