博客首页|TW首页| 同事录|业界社区
2012-05-28

在地球任意地方捡起一块石头,都可以验出铁元素。但是,说世界遍地都是铁矿一定是胡扯。只有石头中铁含量超过一定比例,而石头数量又达到相当规模,这堆石头才能称为铁矿,人们才会对它产生投资开采的兴趣。如果铁矿石埋藏不是太深,开采和运输的成本不是太高,市场有长期稳定的购买需求,那么铁矿开采的兴趣才会变成行动,成为一个有利可图的商业活动。

同样的道理也适用于对于大数据由来的分析。有了互联网,也就有了网络数据。随着网民的增加和网络服务的日益丰富,网络数据也就丰富起来。做个网站,上面罗列些服务,无论它们是新闻资讯,还是产品商品,或者是娱乐游戏,只要有用户问津,就会给服务提供商留下些使用记录。无论这些数据如何简陋孤立,但只要有用户ID和点击量,就可以支撑起网络广告商业模式。只要有用户注册信息和支付账户,就可以支撑起电子商务和会员制服务的商业模式。随着新增网络用户增速的降低和同质性网络服务数量的增加,逼迫网络服务提供商开始从粗放式经营走向精细化经营,试图通过提高市场推广的投入产出比来提高收入和利润。在走向精细化经营的种种努力中,一个被普遍采用的方式就是数据挖掘。

过去由于大部分互联网公司是以产品与服务为中心,所以获得的基本上是单一产品与用户之间的行为记录,缺少产品之间,用户之间,以及更复杂的产品逻辑和用户行为逻辑的数据,也就是业内俗称的数据的非结构化,非关系化或碎片化。所以,尽管一些公司里有些专家在做数据整合与分析,也有一些专门从事数据发掘的公司,工具和专业服务,但总的看起来,数据收集,整理,挖掘所需的成本与产生的效益相比,性价比不高,吸引力不大。就像前面说到的贫铁矿一样,含金量不高的数据无论规模多大,挖掘多深,也是形同鸡肋,食之无味,弃之可惜。

这一局面到了WEB2.0时代发生了根本性的转变。以FACEBOOK为例,可以看出大数据是如何在日常服务中自我形成:首先,用户需要注册才可以使用,这一注册ID可以通行于数以千万计的网站之中(FACEBOOK CONNECT),也通行于数以百万计的第三方应用之中(Open Platform)。这就构成了用户身份的确定性和唯一性。其次,用户与用户之间直接与间接的双向互动关系构成了动态的,稳定的,不断变动与发展的社会网络,信息传播和产品与服务的推广的脉络清晰,结构分明。第三,开放平台的众多通用标准和接口诱导广大的第三方应用提供商使用统一的数据格式,结构和逻辑,使得数据的汇合与整合相对简单容易。第四,网站架构的简洁性(例如WALL和NEWFEED)使得众多平台功能所产生的数据自动耦合,使复杂的社交数据能够有序形成,便于整理分析。第五,TIMELINE,OPENGRAPH,CREDIT等一系列机制将千姿百态,错综复杂的用户网络行为整合成时空逻辑清楚,行为逻辑可查的行为数据链。凡此种种,FACEBOOK自觉或不知觉地成为了网络业内第一个能够生成大数据的公司。当然,这不是说它是生成大数据的唯一形式或者它已经对分析利用大数据很成功了。

正在成为大数据拥有和使用者的公司不止FACEBOOK一家。苹果在操作系统和网络终端上正在努力形成大数据的生成之地,谷歌在操作系统,搜索系统和GOOGLE+平台上正在努力整合众多产品,形成可资利用的大数据,亚马逊正在通过网络平台,云计算平台和阅读终端形成一个电子商务垂直领域的大数据汇集地。国内一些互联网公司也在有意无意之中,在一些较低层面上努力着,例如搞些云计算,输入法,浏览器,杀毒平台,以及各种木马,COOKIE之类的东西,试图获取和整合更多的用户行为数据。总之,增强数据结构性,加大数据关系性,把碎片化的数据用种种手段整合起来并加以利用,这是产业发展的一个显著走向。

就整个产业而言,网络业在处于大数据时代的萌芽初期。在商业模式和经营水平对大数据的依赖程度上,除了搜索,整体上低于电信业,金融业,证券业,保险业,航空业,旅店业等传统产业的水平。但是,网络业的后发优势也十分明显。随着其他传统产业的互联网化,随着广大用户的日常工作与生活越来越依赖于互联网,一个由网络业牵头,整合各行各业,全面系统地记录与把握亿万用户的行为模式的大数据系统三五年内会有个雏形,一个巨大的富铁矿正在形成。至于谁会抢占先发地位,推出事实标准,发展崭新的服务模式和商业模式,就要看业内人士的悟性,努力与造化了。

2012-05-07

前不久写了一篇《迎接大数据时代》的文章,发表后颇有反响。一些朋友找我去开这方面的会,一些媒体采访发这方面的文章,一些资本想找这方面的项目投入。这可有点似曾相识燕归来的感觉了。当年写过关于WEB2.0革命,写过网络平台,写过开放,业内和社会上也都有过类似反应,想搭顺风车,混吃混喝的大有人在。为了避免以往悲剧的产生,减少鱼龙混杂,以假乱真的现象,只好多写几篇这方面的感想,权作免责条款吧。

极而言之,如果全世界网民的网络行为记录都能紧密整合在一起,那当然称得起大数据这个名称。反之,如果只有一个网民的一条孤零零网络记录,那当然撑不起大数据这个概念。问题在于如何在这两个极端之间,找到一个划分大数据与否的区分点,或者找到一组指标,能够具体衡量数据量从量变到质变的相对标准。这无论在学术研究上或是在商业实战上都很重要。试想若是某个公司自认为自己网络服务产生的数据量很大,觉得可以自称大数据公司了。于是说服董事会和投资者加大这方面的投入,购买大批专用设备和第三方专业服务,组建这方面的团队。经过一段时间的实践,发现投入产出不成比例,建立在大数据基础上的商业模式和产品服务研发不能得到理想的回报,那岂不是个悲剧?

以我的观察和实践经验,网络业中一个公司是否称得起拥有大数据至少要从三个维度考量:

数据规模—-所谓大数据最基本的要求当然是数据规模大,但很难给出一个绝对的数字标准来确定大小,而只能用一些模糊的感觉来相对比较。例如,一个公司在年度预算中有了专门的,显著的数据存储和分析预算(例如,总预算的3-5%),有了独立的数据处理和分析部门,有了比较完整的数据存储,安全和保密政策与管理流程,有了高度依赖数据分析结果的商业模式,那么,可以说这个公司面临着利用大数据的机会或挑战了。

数据结构—-数据量只是反映数据性质的一个指标,也许还不是最重要的指标。一天产生一百万个T数据的公司也许算不上大数据公司,而另一个一天只产生一万个T数据的公司也许反而是个大数据公司,其奥妙在于数据结构的复杂性。例如,A公司拥有一亿用户,但用户在A公司网站上只干一件事或一类事,比如获取新闻资讯,买买东西,或者玩玩游戏。那么由此产生的数据量虽然不小,但结构简单,重复性高,分析起来很容易,无非就是根据用户背景和使用习惯分分组,归归类,简单数据挖掘基本功足够,扯什么大数据就有点故弄玄虚了。B公司只有一千万用户,却是个开放平台,用户在此可以干互联网能够支持的所有事情,网络行为又可分为个人,群体,组织等层次,那么这个数据的结构就够复杂,能够支持深度挖掘和复杂建模,因而就可以算作大数据。

数据关联度—-网络业一个常见现象就是随着数据量的增加,用户行为所产生的数据间的关系越来越不清晰,越来越难以捉摸,越来越相互孤立,也就是所谓的数据碎片化。这种碎片化主要来自两个方面:一是网站结构碎片化,逻辑混乱化,各种产品与服务之间相互孤立化,因而导致数据之间关系断裂,关联度很低。例如,明明是同一个用户在一个网站上使用了十种不同的产品和服务,但由于其中五种无需注册使用,其他五种又需要分别注册使用,结果这十种网络行为的数据无法整合在一起,或者需要通过种种技术手段和工具进行高成本的数据整合,以至于入不敷出。这也就减少了数据的含金量,降低了数据的可挖掘度,使得无论数据量如何大,结构如何复杂,也形成不了大数据。反之,如果一个WEB2.0时代的开放平台,架构清晰,逻辑分明,用户与用户,用户与用户行为,行为与行为之间都具有确定的关联性,那么这样的数据就具有极高的含金量,极高的分析挖掘价值,也就可以形成大数据。

所以,简而言之,大数据与否取决于数据规模,结构复杂性和关联性,简单地说某个公司的数据量大并不等于说这个公司具备拥有和利用大数据的前景。例如,直到google+诞生前,谷歌就不能声称自己是个大数据公司,因为它的海量搜索数据虽然规模庞大,但结构简单。尽管听说它的搜索算法已经囊括了六万多个变量,成千上万的数学和统计学模型,上千的博士和工程师参与分析,但在数据挖掘深度,搜索结果个人化,搜索结果与广告之间的相关度上进展有限,只有改良,没有突破。更严重的是,谷歌数百个产品和服务之间相互关联度极低,各干各的,无数数据库互不相干。各个部门之间以邻为壑,互不配合,更不整合。所以,面对以FACEBOOK和苹果为代表的WEB2.0时代以及由此产生的大数据战略机会,谷歌若干年来束手无策,只能靠不断扩展产品线对付。如果直到两年前谷歌还算不上大数据公司,那些自认为自己有点数据,或者会点加减乘除,或者以为掌握一些基本的数据库技术和KNOWHOW就可以招摇过市,到网络业和资本界呼风唤雨,是不是有点不知深浅,过于幼稚了呢?

2012-05-04

不到一年前,Facebook创始人扎克伯格在Web2.0峰会上宣布,根据Facebook统计数据,社交分享信息量以倍数增长,今天分享信息总量比两年前增加了两倍,从现在开始后的一年,用户所产生的信息分享总量将会翻番。扎克伯格的社交分享定律可以用一个公式来表示:Y = C ×2x。其中,X代表时间,Y代表用户的信息分享量,C代表现在时刻的分享信息量。如果这个公式成立,那么20年后,一个用户的信息分享量将是今天的一百万倍还多,即2的20次方。

小扎推出这个定律是对WEB2.0时代网络用户行为产生的共享数据量变化的总结,其中当然也含有商业目的和对信息产业前辈的模仿因素。如果这个定律成立,那么FACEBOOK的前景不可限量。即使是按照公司目前简单的基于访问流量的广告商业模式,FACEBOOK的年收入也可以水涨船高,永无止境。如果对现有商业模式加以改良优化,再不断推出新的营收方式,那公司未来每年的收入的增长还会长期保持高增长。小扎用这个简明易懂的定律做公关,用来忽悠投资者和合作伙伴,是个非常聪明的方法。这显然受到了享誉信息产业界多年的梅特卡夫定律的启发,这条定律说网络的价值等于网络节点数的平方,网络的价值与联网的用户数的平方成正比,即网络的价值V=K×N2,其中K为价值系数,N为用户数量。

扎克伯格定律真的成立吗?如果成立的话该如何理解呢?如果从个人用户简单直观的体验看这个定律不可能成立。一天只有24小时,每人上网的时间是有限的。如果10年后他的网络行为所贡献的数据量是今天的一千多倍(2的10次方),20年后是今天的一百万倍,一个人怎么可能在有限时间里面对如此庞大的数据量?不能想象一个人十年后阅读的新闻资讯量是今天的千倍,或者二十年后一个人逛网上商城或玩网络游戏的时间是今天的一百万倍。同理,如果从运营传统网站的公司角度看,它们所能产生和使用的数据量最多只能按算数级数增长,和扎克伯格定律一点关系也没有,不可能用来忽悠投资者。

扎克伯格定律只能在诸如FACEBOOK这样的网站里成立,也就是只适用于以个人用户为中心,通过人际关系进行信息互动与传播的WEB2.0架构下的网络服务系统之中。举例言之:按照社会学研究的结果,人们平均而言最多可以有效维持145个社会关系,也就是说FACEBOOK上9亿用户每人可以拥有的朋友数量最多也就是平均145个。如果一个用户和他的朋友们今天只在那里说一句话或有一个动作,那么他会从朋友处得到145条共享信息,同时他自己生产的那条信息被传播给了145人。如果这个用户和他的朋友们明天在那里说十句话或做十个动作,那么他会从朋友处得到1450条信息,而网站中所产生的共享信息量则是145的10次方。换句话说,每个用户的网络行为如果是算数级增长,那用户间的传播,互动,和共享信息则是几何级增长。同传统网站相比较,例如在一个门户网站上,一个用户看一条新闻只得到一条行为记录,多看十条新闻也只多得到十条记录,数据量并不会产生几何级增长的效应,扎克伯格定律失效了。

FACEBOOK的经验数据是说每年共享数据翻一番,其实理论上共享数据的增长应该翻许多番。所以,这条定律并不是一条精确的数学定律,而只是对一种趋势的统计学意义上的描述。不同网站在不同历史时期和不同运营水平上,共享数据的增长幅度也许会不一样。但是,大趋势是不会错的,这条定律会在相当长时期内有效。历史上著名的摩尔定律提出于1967年,但在45年后的今天仍然有效。

回想起上世纪80年代在美国学习社会网络分析时,最大的痛苦不在理论的把握,也不在统计模型的研讨或计算机编程,而在于无处获得大规模的,系统的,完整的,动态的社会网络数据。无奈之下只能采用计算机模拟或者用些局部的简单数据作为分析研究的基础,所以多年来它只是一个小圈子里的自娱自乐的东西,发展不快,影响不大。直到最近几年,确切地说直到FACEBOOK诞生,社会网络分析这门学问在相当大程度上和经济学理论或物理学理论一样,考验的是思维能力,而不是实证水平。正如二战后计算机的诞生促进了大学中计算机科学这个学科的独立产生和蓬勃发展一样,互联网上基于社会网络机制的服务的发展也许会促进作为社会学一部分的社会网络分析的勃兴。没准在不久的将来使社会学从社会哲学和经验社会研究中挣脱出来,成为像经济学一样的科学学科,让诺贝尔奖增添一个社会科学奖项。