大数据时代的创新者们

大数据的时代已然来临。IDC数据显示,在2006年全世界的电子数据存储量为18万PB,而如今这个数字已经达到180万PB,短短5年间就已经 增长了一个数量级。而根据预测,2015年这个数字则会达到如同天文数字般的800万PB。就在此时此刻,海量数据依然源源不断地产生,从不停息。面对这 些“大数据”,有些人叹息抱怨,害怕数据量的剧增对于现有IT架构的冲击;有些人积极主动,探寻应对海量数据的应对与解决之道;还有一些人,则是顺势而 为,抓住时代发展的商业机会,成为富有活力的创新者。本文就将聊聊这第三种人。

大数据的发展催生了诸多商业机会和商业模式。而这些公司所面对的独特的时代背景,就注定了它们必会受到市场和资本的追捧。它们中的一些或是已经融资 成功,进入高速发展期;或是被成功收购,帮助投资人和创始人成功从项目中退出。而很多上市公司,也开始在这一领域动作频繁,积极布局,这也从侧面反应了这 一领域的广阔前景和巨大的利润空间。

大数据的生态系统

IBM的架构师Stephen Watt曾在《Deriving new business insights with Big Data》一文中简单讲解过大数据的生态系统。简而言之,大数据的生态系统,就是数据的生存周期。数据从产生,到处理,再到价值提取,最后被消费掉,这整个过程就构成了大数据的生态系统。如下图所示。

在这个生态系统中,无论是数据的存储、数据的处理、数据的分享、数据的检索、数据的分析,还是数据的可视化,都存在着不同的商业需求。需求的出现必然会导致创新的产生。所以,在每个步骤都有不少初创公司在深耕自己所在的领域,试图通过新技术和新方法来实现新的商业模式。

数据的存储

Amazon是大数据和云计算的先行者,它推出的S3云服务也 早已成为云端存储的业界标准。通过易于使用的API,用户可以很方便地将各种数据对象放在云端,然后再像使用水电一般按用量收费。S3根据用户所占用的存 储空间、请求数和数据流量进行阶梯定价收费。同时,S3还为对数据可靠性的要求并不高的用户提供了更为便宜的去冗余存储模式。Amazon S3服务是典型的付费服务商业模式,增长十分迅速。去年Q4共有2620亿个对象储存在S3上,而今年Q3这个数字已经翻了一倍,达到5660亿。更难得 的是,Amazon S3的云服务真正让许多创业公司享受到了云计算带来的便捷。使用S3作为存储支持的文件分享服务Dropbox进行的最近一轮的融资,估值高达80亿美 元,每天上传的文件多达2亿个。

大数据时代另一个热点便是NoSQL,不但诞生了很多NoSQL的数据库产品,还围绕着NoSQL产生了不少新技术新模式。也许提起10gen这家公司,读者们会觉得陌生,但是说起他们的产品MongoDB, 则是鼎鼎大名。由于其易用性和高性能,MongoDB在很多开发者眼中已然成为NoSQL的首选。10gen公司提供基于MongoDB的服务,包括商业 支持、培训和技术咨询等等,像Foursquare、Craigslist这样知名的公司,都是10gen的客户。10gen于今年9月完成D轮2000 万美元的融资。

其他的NoSQL产品在大数据时代也广受注目。为企业提供基于Cassandra的Hadoop构建方案的创业公司DataStax近日宣布完成1100万美元的B轮融资;NoSQL数据库技术提供商Couchbase,则集合了CouchDBmemcached的设计者和开发人员,今日完成了一笔1400万美元的C轮融资;图形数据库厂商Neo Technology也凭借其开源项目Neo4j获得1060万美元的融资。这些公司主要将融资用于NoSQL旗舰产品的研发,并努力提升和拓展市场份额,然后基于它们的产品开展业务,它们在盈利的同时,也为社区提供了高质量的NoSQL数据库产品,从而实现共赢。

分布式文件系统也是大数据存储的方式之一。最早由Powerset开发的HBase就 是基于HDFS(Hadoop Distributed Filesystem)的分布式数据库。虽然目前还没有专门的商业公司来做针对HBase的业务,但HBase在业界已经有众多使用者,许多知名公司比如 Facebook、Twitter、淘宝等都是HBase的用户。

数据的处理

Hadoop是大数据时代数据处理的首选。脱胎于Google MapReduce的 Hadoop凭借其开源和易用的特性,很快成为了大数据时代的最耀眼的主角。目前,Hadoop已经成为大数据生态环境中不可或缺的一环,是拥有海量数据 处理需求的公司的标准配置,许多商业创新和产品创新也都是围绕着Hadoop展开的。Yahoo也已经认识到了Hadoop的价值,将Hadoop拆分成 一个独立的商业公司HortonWorks进行运营。

虽然Yahoo是Hadoop最大的贡献者,也进行了Hadoop的商业化,但却没法阻止其他的颇具实力的竞争者进入这个前途无限的领域。Cloudera便 是其中最耀眼的一个。且不说联合创始人中有Facebook和Google的精英们,就连Hadoop的创始人Doug Cutting也从Yahoo离职加入了Cloudera,这一举动当时在业界还引起了不小的震动。Cloudera最开始的模式是帮助企业管理数据,后 来则转型为软件厂商。他们推出的软件发布包可以帮助企业更方便地搭建以Hadoop为中心的数据管理平台。Cloudera也是通过技术支持、培训和咨询 等付费服务来盈利的,目前融资已达3600万美元。

如果说Cloudera是依靠其华丽的精英团队来吸引客户的话,那么MapR则 是通过过硬的产品来让业界认识到他们的价值。据称,经过MapR改造的Hadoop的速度可达原来的3倍。对于Hadoop的MapReduce模式,相 信现在基本上已经没人提出质疑了,然而大家更关心的是,这玩意还能不能更快,MapR则很完美地回答了这个问题。EMC也宣布在一些产品使用MapR版本 的Hadoop,而MapR也刚刚完成了2000万美元的融资。

除了速度以外,Hadoop的易用性也是一个用户所关心的问题。虽然相比较其他的框架而言,Hadoop已经简化了许多使用MapReduce技术时所需要做的工作,但是对于终端用户而言可能还算不得十分友好。近日宣布完成570万美元A轮融资的海量数据管理软件商Platfora,就在试图解决这个问题。Platfora旨在提供一个更为友好且更具操作性的用户界面,而且这个产品可以兼容包括Cloudera和MapR在内的各个Hadoop版本,能够大大降低使用Hadoop的门槛,让更多的公司体验到Hadoop的技术优势。

不仅仅是Hadoop本身,就连Hadoop的周边也不乏成功的创新者。AsterData已 经成功地被老牌数据仓库厂商TeraData以2.63亿美元收购,他们的核心技术叫做SQL-to-MapReduce,可以将海量非结构化数据的处理 技术和结构化数据的数据仓库技术结合在一起。而这种高速处理海量非结构化数据的能力,恰恰是传统数据仓库的公司所欠缺的,这也是为什么TeraData肯 花如此大的价钱买下AsterData的原因。

数据的分享

数据本身也非常有价值。虽然,大部分的公司所面对的数据都是由内部系统或者交易记录日志之类的东西所产生的,但是这并不意味着他们不需要一些自己无法获得,或者已经被处理过的外部数据。因此,能够下载或者访问数据集,自然而然也就成为了商业需求,甚至美国政府都推出了官方的数据集网站可供下载。

InfoChimps正是一家在线的数据集市,吸引了不少才 华横溢的数据开发者。数据提供者可以将数据集上传至InfoChimps,可以供人免费下载,或者以一定的价格销售。另外,InfoChimps还提供很 多API可供用户调用,在超过一定数量的免费API调用限额后,InfoChimps会向用户收取一定的费用。InfoChimps的目标就是让每个人都 能找到自己需要的数据集,目前这家公司已经完成了A轮120万美元的融资。

提供API服务的数据集分享公司并不止于此,Factual就是一 家开放数据平台的公司。它所提供的多种数据集汉涵盖了本地服务、娱乐、教育和医疗等多个方面,不但可以通过API访问,还可以很方便地通过SDK集成到移 动应用当中,为依赖数据的移动创新带来了很大的便利。Factual也是通过收费API调用的方式来盈利的,目前已经募集资金达2700万美元。

数据的检索

数据检索在搜索引擎时代已经不是什么新鲜事了,然而随着社交网络的盛行和大数据时代的到来,实时性检索的需求也就变得越来越强烈。事实上,实时性的 需求一直以来都是存在的,只是受囿于技术和成本的原因而没有什么实质性的突破。如今,随着实时数据处理技术的不断成熟,实现实时性数据检索也已经成为可 能。

实时搜索引擎TopSy是目前少有的独立运营的实时搜索引擎,他们号称可以每秒 钟索引100万份文档,这个速度基本上能够满足实时性的需求。目前TopSy主要索引的是Twitter的数据,它提供了API可供用户访问。在2011 年1月间,TopSy共收到5亿次请求,绝大多数是来自于API的调用。因此,公司也在考虑推出收费的API服务,以解决目前公司盈利模式不明朗的问题。 TopSy已经完成了C轮融资,融资总额度高达3000万美元。

说到实时数据检索的问题,就不能不谈到Twitter刚刚推出的开源产品Storm。这个产品一经推出就立刻吸引了大家的目光。然而却少有人知道,Storm其实来源于Twitter刚刚收购的一家名为BackType的 公司。这家公司由大名鼎鼎的YC进行孵化,在被收购以前就计划推出Storm,然而期间却经历了Twitter的收购,因此收购以后由Twitter发布 Storm也是顺理成章的事。Storm每秒钟可以处理数百万的消息,非常适合实时消息处理,而这也许是最为吸引Twitter的地方。

最近还有一件与实时数据检索相关的收购案颇为引人关注,全球最大的连锁零售商日前宣布收购了移动和社交广告公司OneRiot, 然而这次收购的交易金额并未对外透漏,OneRiot也被并入了沃尔玛实验室。OneRiot最早是一家实时搜索公司,后来借此涉足广告领域,并关停了实 时搜索,专注于实时广告业务,并开始提供应用内移动广告的社交服务。OneRiot最吸引沃尔玛的地方,应该就是所谓的Big Data + Fast Data,将实时的数据处理与分析和广告联系起来,这也将是广告业未来发展的一个必然趋势。

数据的分析

在线数据分析服务平台是数据分析的趋势。Quantivo的口号是 “Big Data Analytics for Everyone”,该平台可以从多种来源组合业务数据,对其进行整理和合并,然后让客户通过专有接口来访问甚至提问,平台会帮你找到最好的答案。另外一 家提供在线分析平台的公司是最近刚刚完成8400万美元融资的Opera Solutions,这次融资也使该公司的估值达到5亿美元。用户将数据上传到Opera Solutions的平台上,然后Opera Solutions会针对用户的不同需求,结合行业专家的建议来为用户提供服务。该公司虽颇为低调,但年营收早已突破1亿美元。

然而并不是每个公司都是服务导向性的公司,Palantir就 是一家产品导向性的公司。这家由前PayPal员工和Stanford的一群科学家们所创建的公司,融资总额已接近2亿美元,估值高达25亿美元。 Palantir主要是为政府和金融机构提供高级数据分析平台,该平台源自PayPal的反欺诈分析平台,将人工算法和强大的数据库扫描引擎整合在一起, 帮助用户通过多种方式快速浏览相关的信息。更有趣的是,这家公司号称永远都不会有销售、营销和公关人员,坚持追究极致产品的乌托邦式工程师文化,完全通过 口碑来推动公司的业务发展。

随着社交网络的兴起,社交数据的分析也成为了热点。今年Saleforce就宣布以3.26亿美元的价格收购社交数据分析公司Radian6。 Radian6的业务主要是围绕着各个社交网站所开展。通过对各个网站的监测和分析,Radian6能够将客户关心的数据尽早呈现,从而使这些客户能够更 为主动地制定市场营销的战略。对于Saleforce而言,Radian6最吸引它的地方,便是可以将现有的CRM与社交分析整合在一起,从而更好地满足 客户的需求。

数据分析的服务并不只是空中楼阁或是大佬们的玩物,也许它就在你我的身边,被Next Jump收购的公司FlightCaster就是这样一家公司。它根据过去10年里的各种数据和当前实时的状况,通过专利算法来预测国内航班可能会延迟的概率,并能够早于航空公司6个小时通知你。这对于经常坐飞机而又饱受飞机延误之苦的人们来说,这个预告还真是有其现实意义的。

数据的可视化

数据可视化可以提供更为清晰直观的数据感官,将错综复杂的数据和数据之间的关系,通过图形的方式表达出来。俗话说:一图胜千言,这句话用来形容数据可视化真是再贴切不过了。从某种意义上说,数据可视化更像是一种艺术,它所传达的美感总是让人印象深刻。

MeLLmo公司就是先行者之一,主要关注于企业移动应用领域的数据可视化技术。MeLLmo推出的数据可视化平台Roambi可以通过网站和移动设备导入各种类型的数据,并将其图形化处理。关于Roambi的盈利模式,主要是为企业用户提供Pro的付费服务。MeLLmo近期刚刚完成A轮融资,总融资额为5000万美元。

InfoGraphics也是广义数据可视化的一种表现形式,通常用于信息的可视化,许多知名公司都为其拥有的信息制作过极富美学特质的InfoGraphics。Visual.ly号 称是目前互联网上最大的InfoGraphics收集平台,并且在研发在线的InfoGraphics制作工具。Visual.ly希望可以建立起一个设 计师社区,让InfoGraphics的制作者从中收益,比如参与到付费的广告制作中,并借此来使Visual.ly获利。目前Visual.ly已经收 到了50万美元的种子投资。

总结

围绕着大数据的生态圈,我们参观了各个环节上杰出的创新者们。这些创新者顺应大数据时代的浪潮,敏锐地抓住了数据爆炸时代所产生的商业机会,他们或者已经成功,或者依旧在追求成功的路上。

诚然,受限于篇幅的原因,我们不可能将整个大数据生态环境中所有的创新者纳入其中,仅能选取一两个有代表性的公司,而且也没法进行更为深入的介绍。 但是,希望本文可以帮助读者了解整个大数据时代的商业全景,以及基于大数据的各种商业创新和技术创新,借此能够激发出更多的创新,并向这些先行者们致敬。

This entry was posted in DB. Bookmark the permalink.

发表评论

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / 更改 )

Twitter picture

You are commenting using your Twitter account. Log Out / 更改 )

Facebook photo

You are commenting using your Facebook account. Log Out / 更改 )

Google+ photo

You are commenting using your Google+ account. Log Out / 更改 )

Connecting to %s