什么是大数据?

任何比较关注业界新闻的人,都会知道最近一两年IT行业的几个关键字:移动端、LBS、SNS和大数据。前边三个,大家应该是很熟悉的,因为身边早已充斥着相关的应用。唯独最后一个大数据,在大部分人眼中却是非常陌生的,除了知道如数据挖掘、智能推荐等几个看似非常高深的词汇之外,却是不知其里的。

首先,笔者需要告诉大家,数据有什么价值。很多人可能认为,数据只是一堆数字,是没什么价值的。其实这些人很可能早已可能享受到数据的红利。例如早在2006年中旬上线的百度指数( index.baidu.com ),其实就是一个基于大数据的数据产品的雏形,但是还不能说是完整的大数据产品。百度指数是用以反映关键词在过去30天内的网络曝光率及用户关注度,它能形象地反映该关键词的每天的变化趋势,以及显示这些搜索的地区分布和简单的人群属性。百度指数的数据被大量的用作针对百度甚至其它一些搜索引擎的SEO的参照,也经常被一些研究公司、学者引用作为一些研究报告的参考数据。

在百度指数之后,阿里巴巴集团亦推出了淘宝指数,相对于百度指数,淘宝指数(http://shu.taobao.com)是一个更加完备的数据产品,用户可以在淘宝指数中搜索任何一个关键词,得到这个关键词在淘宝(天猫)上的搜索/成交趋势、人群信息(如性别、年龄、星座、地区、爱好)等等,还可以查询从这个关键词出发的淘宝上的相关商品、商品属性、品牌等的销售情况,以及对任意人群信息组合(例如25-30岁北京女性)下的相关交易信息。淘宝指数目前亦是免费开放,只要使用淘宝帐号登录即可,通过淘宝指数,我们可以很轻松的发现很多很有趣的事情:

例如通过查看“周大福钻石”的搜索和成交信息, 我们可以很清楚的看到,从2011-08-01到2012-11-30,487天来搜索周大福钻石的人群中有68%的女性和32%的男性,但是在购买周大福钻石的人群中,却是100%的男性。再例如对比“加多宝”和“王老吉”,我们很容易就会看到,从今年四月中旬加多宝出现之后,王老吉的搜索量明显下降,加多宝则直线上升,在9月12日前后,两者的曲线发生了历史性的交汇。

淘宝指数的开发团队(注:暨集团-cdo-数据平台与产品部)从2010年开始还推出了针对淘宝(天猫)商家的收费数据产品数据魔方,基于淘宝上品牌、属性等提供更加详细的多维度的数据组合查询。同时新浪微博还推出了新浪微指数,优酷推出了优酷指数,这些直接呈现数据,以数据的统计、挖掘、汇总、分析为主题的产品,是大数据时代的第一种产物。

大数据时代中还有一类产物便是基于大数据分析和挖掘的能力,针对用户进行个性化的信息推送的产品,目前美国亚马逊、阿里巴巴集团旗下的淘宝网等电子商务网站中,这种产品均在越来越广泛的得到应用,并取得了很好的转化效果,比传统的导购模式表现出了更高的转化率(可以理解为看这些页面的人中实际购买这些页面呈现的商品的人的比例)。另外在网站的后台,基于大数据的BI(商业智能)分析更是早已为网站的运营人员和规划人员提供了宝贵的信息支持。目前国内外也有很多数据公司通过构建大数据分析系统来服务各类企业的BI部门。

看到这里,有些人可能觉得,所谓的数据产品仅仅是对数据进行一些统计分析,然后呈现出来,没什么了不起的。这么说从某种意义上来讲所言非虚,但是,笔者希望本文的读者在任何时候都记住一句话:看起来简单的事情,实质上往往都是不简单的。

先说说什么叫做大数据:从公认的定义上看,大数据从数据量上看,至少也要达到PB级别(1PB=1024TB=1048576GB)。目前从公开的资料中我们了解到,阿里巴巴集团目前的数据系统之一“云梯”中总存储容量50PB,实际使用容量超过了40PB。百度搜索引擎抓取的数据综合,大概是10-50个PB,这个范围很大,因为这个情况是每隔一小时时间就会发生很大变化。另外其的UGC,也就是用户产生的内容,例如百度贴吧,百度知道,百度文库中的内容,这些内容是广大互联网网民自己产生,自己上传,大家一起分享的数据,这部分数据目前达到1PB。

处理这么多数据,显然,单独的计算机,哪怕是大型机,都很可能是力有不逮的。那么,我们就要借助所谓的云计算技术了。在介绍这部分内容的同时,笔者亦会介绍三个概念:离线计算、实时计算和流数据计算。

离线计算指的是,在用户查询计算产生的数据之前,计算就已经完成了,用户仅仅是查询计算的最终结果。例如细心的你可能会发现,百度指数和淘宝指数中的大部分数据都是每天更新一次的,这个便是因为,这些数据一般都是在每日凌晨时通过离线计算产生的。离线计算由于计算早在用户查询之前就完成了,所以对计算所消耗的时间长度不做要求。目前广泛运用于离线计算的是开源Hadoop系统,在阿里巴巴集团中,其数据系统之一:云梯系统,便是架构在Hadoop上的。这个集群目前拥有超过3200个节点,清一色基于英特尔处理器的x86服务器,日均作业数高达15万。相关数据产品在每天凌晨开始处理超过1.5PB的数据量,会在几个小时内处理完毕,每秒钟处理的数据量都可能是以GB为单位的。同时阿里集团还有另外一套规模略小,但是是基于自主知识产权开发的系统飞天(ODPS)上的数据处理系统,也拥有上千个节点。至于百度公司,根据其2011年公布的情况,其所有的Hadoop集群的节点总和应该超过了1万个,但是节点分布在多个不同的集群中。

离线计算产出的结果数据都是固定的组合的,例如我们可以计算出“王老吉”一词在北京地区由男性在百度上搜索的搜索量。然后数据产品的前端系统查询时直接查询取出这样的数据即可。但是这里有一个问题,如果前端用户需要多维度组合查询的话,例如查询任意性别(男、女)*任意年龄(假设五个年龄段)*任意城市(340多个城市)*任意爱好(假设有10种爱好)的人群的搜索量,那么,如果需要把这些组合全部通过离线计算算出,便有2*5*340*10=34000中组合,那么一个词一天的结果数据便有34000个,这样组合计算的效率和结果的存储成本是不可接受的。所以,我们必须构架一套实时计算系统,暨计算在用户查询时便发生的系统。我们往往也把离线计算系统归类于OLAP(On-Line Analytical Processing, 联机分析系统)中。

有些读者可能用过一些数据库系统,例如sql server、mysql、oracle等,从本质上讲,这些数据库中对数据的计算也是在查询时发生的。但是,在大数据时代,数据量极度膨胀,使得这些传统的数据库很难在短时间内从海量数据中查询计算出用户需要的数据。举个例子,假设淘宝(天猫)每天的成交交易的笔数是1000万笔(实际上显然不止这个数字),那么30天内就有3亿数据量的积累,在这3亿数据条目中,要求在0.5秒内查询出符合三四种条件组合的成交量,并且做分组(group)、汇总(sum)、排序(order)等运算组合的情况下,单机部署的oracle、mysql等的性能都无法满足这个要求。所以便需要更高性能的,在多个节点上并行计算的实时计算系统来支撑了。目前实时计算系统中还没有像Hadoop那样占有极大的市场份额的开源软件,各大公司都在开发自己的实时计算系统,例如阿里巴巴集团的Garuda( http://www.tbdata.org/p_d/tech#section-4 )系统。实时计算系统一般也和业务数据库一起被归类于OLTP(联机事务处理系统)中。

离线计算和实时计算,虽然计算发生的时刻不同,但是数据装载的时刻往往是相同的,都是在每天凌晨装载完毕。而流数据计算系统,则指的是数据源源不断的流到系统中,在数据到达时便计算相关结果的系统。显然流数据系统是可以计算呈现几分钟内新增的数据的。目前这方面的相关应用比较少,可以查到的例子如阿里巴巴集团数据平台的Galaxy( http://www.tbdata.org/p_d/tech#section-3 )系统,为数据魔方等(mofang.taobao.com)提供流数据计算的支持。

以上种种,归结起来,大数据便是海量的(Volume)、多种类的(Variety)、需要大规模的处理才能够凝聚足够价值的(Value)、处理和检索响应速度快的(Velocity)的数据。处理大数据所需要的系统,和传统的数据挖掘工作所需要的系统有根本性区别。同时,大数据时代愈发强调数据的关联性,将各种数据之间关联组合,以产生更大的价值。

我们可以试想一下,以我国公安机关拥有的公民信息为核心,加上民航和铁路部门拥有的出行信息、银行拥有的交易信息、各个城市的社保公积金数据、电信系统的数据等等,构建一套大规模的国民数据挖掘处理系统,这样的系统的数据价值自然是极大的,显然,便能够充分体现出,关联的大数据(Linked Big Data)所产生的巨大价值了。

作者:孙放/卡特

文章来源:http://club.alibabatech.org/article_detail.htm?articleId=8

不做NO.1,吾宁死

有人问大数据和海量数据是咋回事,同一样玩意吧。我说,nonono,你们啊too young,too simple,sometime naive! 大数据就是有了灵魂后的海量数据。灵魂是什么?灵魂是linked data,灵魂是数据不再是数据,是商业模式,各种各样孤立的data被联结后是能诞生商业模式的核武器。你们过10年哈哈。

数据之战就像星球大战计划,只有国力最强劲的国家才能去投入发展。对于公司而言,只有这个星球上最赚钱的公司才会去通盘考虑大数据战略并持续持续持续…投入。有一家公司就是这样的公司,已经做了很多年,并且加速度还保持的非常之好。建立了最好的计算平台,存储系统,并且在这样的计算平台上构建了广告平台这样一个盈利的模式,但他野心并不是这样就终止了,他心里有更远大的梦想。他还把大批量的钱和资源,招聘全球最好的技术人员,继续去投入到建设更加强大的计算平台。

以这为起点又带动了他进入自建IDC及各种相关配套设施,不停的进入他们并不熟悉但在大数据的战略里避不开的各种环节。同时他们也在不停改进计算平台的基础架构,让他可以适应大数据时代数据爆炸的多地多机房全分布式结构。但是他们知道光有先进的基础架构是远远不配和最强劲的对手玩大数据的,于是他们又领悟了很多关键的东西,他们把触角伸到了更多的数据获取的渠道,于是他们制造了浏览器,他们制造了统计工具,他们把广告铺到了更多的网站获取数据,他们制作了数以百计你日常网络生活中会用到的工具,背后都是在获取数据。他们甚至收购了全球最大的视频网站,还有太多太多收购,是为了什么,为了数据。

他随着时代的发展不断的进化,对大数据的认识也越来越深入。他知道在下一个时代,有一个新的领域叫移动,他代表着未来,于是,他用他那惊人的智慧去创造了一个移动操作系统,从根本上去保证了在移动时代他不会失去数据获取的能力,这可是他们大数据梦想的最根基。同时有一个天赋异禀的对手。这个天赋异禀的对手正在以更快的加速度崛起,光芒掩盖了所有人,但是他并不慌,他知道他所要做的是在这个年轻人还没领悟到大数据才是未来致胜最高点的时候去干扰他,去让他忙于应战而丧失对大数据更深入的思考。就像三体人。

就像三体人不会让地球人在基础物理领域有更大的突破一样。他也不停的推出好几个与年轻公司同类型的网站应用,其实在他心里,他已经知道,这一战他必赢,因为他稳赚不赔。这时候他有更多的心情去加速他的大数据战略的实施。一想到这个年轻人疲于应战的样子,他就放松下来,大脑加速思考,他甚至想掌握到最底层数据传输的通道,他果然去搭建了让技术屌丝们流口水的超高速光纤服务,在入口处就能把数据给拦下来,他越想越高兴,不禁笑出了声来。

但这还是不够吧,他又想,如果我来做一个眼镜,让所有人都带着,我甚至能捕捉到他们每个人眼中的恐惧,这才是大数据道理上的一个milestone吧。对了,如果每个人能坐在我的自动导航汽车上,那不是每个人的所有一切,从网络到现实,从白天到黑夜,我都知道。

他拨弄着桌子上的地球仪,想着想着,笑了。他确定地球人没有其他公司能站在他的层面上去思考这些东西。这让他稍微安了安心,但是他知道未来大数据战略的投入会更加的消耗资源,这真是一个星球大战计划,他知道靠广告平台已经不能支撑大数据战略更大的推进。用数据赚更多的钱,来支持大数据战略继续推进是一个不可逾越的关口,还有什么比广告更能赚钱呢,应该是金融领域吧,他喃喃自语所有所思道。于是乎,他开始试验给企业用户提供贷款,这个基于信用数据的商业模式是最适合他去做的。一旦试验成功。一旦试验成功,就相当于给这艘驶往大数据梦想国的战舰换上了曲率驱动引擎,提供这源源不断的能量。突然他发现他的地球仪上弄脏了一块,刚才聚精会神在思考的时候他没有顾得上这一块,这一块好像是在东方,就在西太平洋附近的大陆上,应该是亚洲,似乎是一只雄鸡的模样。他的视线慢慢聚集成一个点,为了更加精确的判断,他打开了他自豪的可视化地图软件,拉升拉升直到找到了一个城市,似乎城市的中央有一大片水,好像叫西湖。他发现了一幢大楼叫做西湖国际科技大厦。有一种无法描述的力量让他的眼光停留在这里,那一刻他突然明白了。他脑海中浮现出了一个人的模样,这个家伙长的这么有特色,天赋异禀的样子。眼神中透露出来的智慧就像最神秘的东方传说一样让人捉摸不透。真该死,怎么忘了这个梦想和他一样远大的家伙。这一刻,他知道了,也知道了未来前行的路上不在孤单。有一个最好的对手,一辈子的对手对他来说是上天最好的恩赐。他做了一个最舒展的动作,放声的笑了,眼神中充满了光芒。。。全剧终。

各位看官,我写的也挺辛苦,一口气下来写了多少字我也记不清楚了。不管刚刚看的是梦幻还是现实,最重要的是我们要有梦想,加入阿里集团数据平台,去迎接大数据时代最强劲对手的挑战,是这一辈子都难以拥有的机会,凡事都在一念之间,不做NO.1,吾宁死。

作者:汪海/七公

文章来源:http://club.alibabatech.org/article_detail.htm?articleId=9

什么是大数据?

《自然》杂志在2008年9月推出了名为“大数据”的封面专栏,讲述了数据在数学、物理、生物、工程及社会经济等多学科扮演的愈加重要的角色,如今这个词语近却成了工商界和金融界的新宠。关于大数据的会议和论坛如雨后春笋层出不穷,但到底什么是大数据,依然众说纷纭。我们认为,大数据具有规模大、价值高、交叉复用、全息可见四大特征!特别地,最后两个特征体现了大数据不仅仅有“规模更大的数据”这种量上的进步,还具有不同于以前数据组织和应用形式的质的飞跃。

数十年来,信息产生、组织和流通方式革命性的变化,其中个人用户第一次成为信息产生和流通的主体。你上传到flickr的一张照片规模大约一兆,上传到YouTube的一个视频恐怕有数十兆,你还通过电子邮件把这些照片和视频发给了你的朋友,用QQ和MSN聊天,用手机打电话发短信,在电子商务网站的浏览和购物,用信用卡支付,发微博,打联网游戏……这一切都将转化为数据存储在世界的各个角落。不论是产生的信息量,可以获取的信息量,还是流通交换的信息量,都一直呈指数增长。仅仅十余年,很多企业爬过MB时代,走过GB时代,现在正被赶着跑过TB时代,去迎接PB时代。事实上,如中国移动、联通、电信这样的移动通讯运营商,如谷歌、百度、阿里巴巴、腾迅、新浪这样的大互联网公司,如国家电网、交通运输部这样的职能部门,每天数据的更新量已经接近或达到了PB量级。数据规模巨大且持续保持高速增长是大数据的第一个特征。

数据规模爆炸性增长的同时,数据产生的附加价值似乎没有与之同步增长。有学者认为数据价值的密度会随着数据量增加而降低——这种悲观的论调得不到任何必然性因果关系的支持。我们认为,这种滞后情况的症结在于缺乏从海量数据中挖掘价值的高效方法和技术人员。试想一组数据的价值如果是其规模的自然对数,当你从1GB的数据中挣到9块钱,给你1PB的数据,你只能挣到15块钱。而如果该数据的价值和其规模成正比,那么1PB的数据可以给你带来900万元的价值。对于前者,我们实在惭愧称其为大数据,最多只算是“一大堆无用的数据”罢了。举个例子,精确到小数点后几亿位的π值,其规模巨大价值巨小,如果还非要往万亿位、亿亿位上进行计算和存储,恐怕是正好与大数据的理念背道而驰。对于真正的大数据,其价值的增长应该正比于规模的增长,甚至快于规模的增长。

刚才两个特征主要还是针对单一数据,下面的两个特征强调的是若干数据之间新的组织和应用形式。如果每一个数据都是一个孤岛,只能在其直接关联的领域发挥自身的价值,那么这不是一个值得我们兴奋和期待的新时代。我们要找到和实现数据之间一加一远大于二的价值,其间最关键的问题要发挥数据的外部性,譬如国家电网智能电表的数据可以用于估计房屋空置率,淘宝销售数据可以用来判断经济走势,移动通讯基站定位数据可以用于优化城市交通设计,微博上的关注关系和内容信息可以利用于购物推荐和广告推送……以用户为中心,结合用户在不同系统留下的数据,充分利用个性化的数据挖掘技术,是实现通过数据交叉而产生巨大价值的最可行的途径之一。综上,大数据要求数据能充分发挥其外部性并通过与某些相关数据交叉融合产生远大于简单加和的巨大价值!

如果谷歌把每天超过1个PB更新的数据按照他们内部约定的格式开放给一个三四个人组成的科研团队或者创业团队,这种仁善之举不会对这个团队有任何的帮助,因为他们没有针对这种量级的数据进行检索、抓取、计算、分析的能力。也许他们仅仅只对数据内部的一个特定逻辑片段有兴趣,但是他们没有办法知道这个逻辑片段位于这个数据的哪个位置,以及通过什么办法获取。想象一个披着盔甲的二维生物,其他二维生物无法看到它的内部,但是我们作为三维人,却可以通过第三个维度看到它所有的一切细节——低维物品对于高维生物而言是全息可见的。所以说,大数据规模可以很大,但是用起来应该像操作一个“小数据”一样简单,这就要求数据组织地非常好,内部的各种内容及关联清晰可见且容易调用获取。一句话,一般研究人员和开发人员可以自如获取数据的逻辑片段并进行分析处理。

现在所流行的“大数据的4个V”,只是不痛不痒生搬硬套的无病呻吟,对于深入思考大数据时代的必然性和未来具有阻碍的作用,同时也庸俗化了大数据的意义!举个例子,处理速度快绝对不是大数据的特征,而仅仅是互联网信息服务的自身需求——10年以前没有人谈大数据,互联网用户也不会苦等1个小时。那个时候数据量较小,但是实时计算的难度不比现在小,因为存储计算能力差,亦没有成熟的云计算架构和充分的计算资源。现在很多数据,譬如用于交通规划、宏观经济分析、电力系统规划、气象预报的数据,以及高能物理、等离子物理、基因工程等等实验数据,都是最最典型的大数据,而相关的计算工作,短的数小时,长的可以达到数月数年,一样价值巨大。显然,1秒钟算出来不是大数据的特征,而“算得越快越好”从人类有计算这件事情以来就没有变化过,把它作为一个新时代的主要特征,完全是无稽之谈。

作者:周涛

来源:http://blog.sciencenet.cn/blog-3075-603325.html