博客首页|TW首页| 同事录|业界社区
2012-09-24

记得2005年在业内鼓吹WEB2.0革命的时候,得到最多的有两类反应。一类可以称之为虚无派,他们说讨论这事虚无缥缈,没有马上就能挣钱的模式。一类可以称之为停滞派,他们说讨论这事有什么新鲜,我们的某某东西早就是WEB2.0了。随后几年的产业发展证明了这两类说法的无知与荒谬。

今天在业内鼓吹大数据时代即将到来的时候,得到最多的仍然是同样两类反应。虚无派说大数据云山雾罩,看不出有什么钱途。停滞派说大数据有什么新奇,老子的数据很大,挖掘技术很高。我想,今后几年的产业发展又将证明这两类说法的无知与荒谬。

一些不肯认真读点想点东西的人,一看到大数据这个词,就望文生义地想到数据要大,却忘记了大数据的其他基本特性,需要反复加以提醒。

大数据的特性之一是数据的完整性和综合性。很多业内朋友一谈起大数据,就习惯性地盘点起自己那点存货,或者那些可以直接从自身服务中可以获取的东西。考虑到目前互联网的发展还在非常初级的阶段,现有网络服务都是简化,扭曲,片面地对现实世界的浓缩和裁剪,由此产生的数据是零乱的,破碎的,局部的,其中所含有的含金量是极其有限的。如果同意这个世界上的万事万物可以而且正在被数据化和网络化,那么由此产生的大数据就必然是完整的和综合的,不仅包括网络公司通过自身服务所获得的用户行为数据,而且包括社会的,经济的,政治的,自然的方方面面的数据。这些数据当然分散在不同企业,机构和政府部门手中,汇聚整合在一起绝非易事,但操作上的困难并不能否定大数据本身的完整性和综合性。今天之所以讨论大数据时代的到来,是因为互联网发展到目前阶段使得现实世界数据化发展到了一定程度,各种信息终端普及到了一定程度,数据获取的成本降到了一定程度,使得完整和综合的数据不仅是一种理想,也正在变为现实。

大数据的特性之二是数据的开放性和公共性。正是因为完整的综合的大数据难以由一家公司,机构或政府部门所获得,所以大数据必然产生于一个开放的,公共的网络环境之中。这种开放性和公共性的实现取决于若干个网络开放平台或云服务以及一系列受到法律支持或社会公认的数据标准和规范。任何封闭的或单向获取的数据都不可能是大数据,无论这些数据的规模有多大。

大数据的特性之三是数据的动态性和及时性。天体物理学和理论物理学早就依赖于从宇宙间获取的大量数据,类似的学科还有环境生态学,医药学,和自控技术。但是,这和我们今天讨论的大数据不是一回事。今天的大数据是基于互联网的及时动态数据,不是历史的或严格控制环境下产生的东西。

所以,今天我们谈论的大数据是完整综合的,开放公共的,动态及时的,这样的大数据是我们过去从未有机会获取利用过的全新挑战,也是我们未来应该努力去争取利用的全新战略机会。如果有人以为过去积累的那点数据就是大数据,或者过去积累的数据处理利用能力和经验就可以在大数据时代自然领先,那不是无知就是狂妄。

近来媒体上对大数据方向的进展报道颇多,其中一个很能说明我心目中大数据的性质及其利用的前景。据8月30日《纽约时报》的报道:一家名为气候公司(Climate Corporation)的创业企业每天都会对美国境内超过一百万个地点,未来两年的天气情况进行超过1万次模拟。随后,该公司将根系结构和土壤孔隙度的相关数据,与模拟结果相结合,为成千上万的农民提供农作物保险。

通过遥感获取土壤数据,这和我们过去所熟悉的通过网络服务获取用户网络行为数据不是一回事,数据的概念得以极大的扩充。每天对百万以上地点进行成万次的模拟,其数据量庞大,动态,及时。要想对每块田地提供精准的保险服务,肯定还需要与土地数据相配套的农产品期货数据,气候预测数据,国际贸易数据,国际政治和军事安全数据,国民经济各方面的数据,产业竞争数据,等等。在如此庞杂的大数据基础上推出的商业模式,是创新的,同现有农作物保险方式相比是具备极大竞争力的,是可持续和规模化的。更妙的是,这家公司基于大数据的运营,完全没有进行高额的网络设施投资,只是租用了亚马逊的公共云服务,一个月几万美元而已。

如果留心观察,这样的案例已经很多了,虽然都还比较简单初级,但足以说明问题。如果展开一下我们的想象力,类似上述案例

2012-09-03

苹果与三星的专利大战有了初步结果,苹果大胜,三星惨败。就像世界杯预选赛一样,这场大战是双场制,在韩国打一场,在美国打一场,以避免主场优势。在韩国打成3:3,法院判双方都有侵权行为,苹果净赔偿不过几万美元。在美国打成7:0,三星要赔苹果10亿多美元。三星发誓要上诉,但败局已定,纠缠下去可能输的更多。韩国法院象征性地在本国禁售了苹果几款过时型号的产品,苹果很可能要求在美国禁售三星的当红产品。考虑到不对称的市场规模,三星最好寻求和解。以韩国民族主义之强盛,经常能够左右本国政局,打起官司来居然得到如此结果,让人不能不佩服美国综合软实力的厉害。

这场大战的余波远远超出苹果三星两家公司,势将深刻影响整个互联网业的战略格局。如果用中国古代合纵连横的故事做比喻,那么苹果走的是连横的路子,携软硬实力超群和世界第一大公司之势,强逼产业其他公司就范。以谷歌为首的大部分公司玩的是合纵的计谋,试图通过开放的安卓操作系统形成产业联盟,以量胜质,将苹果冻结在小众高端的市场范围内。苹果选择三星这个安卓产业联盟的领头羊暴打一顿,虽然不可能从根本上重伤安卓联盟,却可以迟滞它的发展,而微软却可能从中获利,扩大市场份额,最终形成三国演义,争取成为势均力敌的三分天下局面。

究竟是依托以封闭式知识产权专利为基础的法律标准打天下,还是开放知识产权以市场份额这样的事实标准打天下,这是这场大战的实质。早年微软在PC操作系统大战中以有偿开放的战略打败了苹果,历史究竟会不会重演现在还很难说。苹果能否继续保持软硬件方面的综合优势,将战火燃烧到电视和相机这两个尚待开发的网络终端市场上去,并在必要的时候大幅降低产品价格;安卓联盟能否继续保持在中低端用户市场的优势,依靠人多势众推出花样繁多的产品;微软能否兼顾两头,以较低的价格推广其操作系统和服务生态圈;一切将在两三年内见分晓。

尽管形式有所不同,法律标准还是事实标准之争还是会延续到即将到来的大数据时代。由于直接涉及广泛根本的公众利益,政府的介入使得大数据时代的标准之争更为复杂难料。根据去年才刚刚成立的有四十多个多个国家加盟的开放政府联盟的规则,所有参与国都必须保证遵循本国的财政透明,信息自由,财产公开和公民参与这四条基本原则。所有使用公共财政获取的数据除涉及国家安全者外,一律要遵循以下标准向社会公开:1)数据完整;2)数据保持原始状态;3)数据及时;4)数据可读取;5)数据可供计算机处理;6)数据采用通用格式;7)对任何需要获取数据者无歧视;8)获取数据无需许可。如果这些公共数据可以采取立法手段确立标准,那么如何对待非公共数据和商业数据?随着大数据时代的进展,估计会出现各种强制或诱导的方式,鼓励和迫使非政府机构和商业机构在保护个人隐私和商业秘密的前提下,尽可能采用公共数据标准开放数据并为全社会服务。一些行之有效并可以进一步扩大强制范围的方法包括:1)任何使用公共财政资金的项目必须公布数据;2)任何使用公共设施的项目必须公布数据;3)任何上市公司必须公布数据;4)任何涉及公共利益的事情必须公布数据;5)任何公众人物必须公布数据;等等。

网络业无法涉足数据标准的法律制定,更多地是采取形成事实标准的办法。例如,苹果和谷歌通过操作系统和云计算平台,FACEBOOK通过开放平台和节能型标准化数据中心,亚马逊通过KINDLE和商务开放平台来尽可能地规范和获取第三方数据。谷歌近来更通过大数据汇集,存储,提取和分析平台DRILL开辟了大数据形成的新路。第三方企业可以利用这个平台进行大数据操作,前提是必须将数据发送到这个平台上。看来,网络业进入大数据时代的主要途径要走数据平等交换,用平台交换数据,形成事实标准后的数据汇集等方式。这个进程痛苦而缓慢,但方向已经确定,三五年后应大见成效,几个龙头级企业会脱颖而出。

无论法律标准还是事实标准,其目的无非是确立通用游戏规则,减少大数据时代的发展成本,尽快发掘新的社会发展空间和商业利益,给未来的创新奠定坚实的基础。希望中国不会误了这班车,过若干年才恍然大悟。