“大数据是机会,但只是少数人的机会,更多是巨头们的商业障眼法,比如 IBM 、Oracle、微软,他们提倡甚至夸大大数据的目的还是为了向你兜售他们的工具,兜售他们的解决方案,确切的说,从你身上赚钱。更有甚者,居然是向你兜售硬件,这不完全是扯淡么? 大硬件还差不多。”
—— fenng @ dbanotes
从2011年开始,英文IT界开始时不时的蹦出“Big Data”这一词汇;到了2012年,大数据成为了一发不可收拾的一个行业热门概念,仿佛出口不提大数据,都不好意思说自己是搞IT的。
究竟“大数据”和“数据”之间有啥区别,业界公认的定义分三方面:数据量(Volume)、处理速度(Velocity)以及数据种类(Variety)。不过说实在的,之前笔者跟IT界同行聊天时提到大数据,说这种量级的数据很久以前不就有了嘛,只不过是在研究所、气象局、金融中心、医药中心之类的地方,跑在昂贵的大型机和超级计算机上面,而现在则跑到了一批互联网公司们的廉价x86服务器集群上而已。从这个角度而言,大数据带来的变革有点类似于二十多年前的PC革命(其实更像是30多年前的小型机革命),并非前沿创新,而是从前沿到普及的过渡。
普及的范围有哪些?以下是维基百科上列出的一些例子:
网站日志,RFID,感应器网络,社交网络和社交数据,互联网上的文本和文档,互联网搜索索引,通话记录,天文,气象科学,基因学,生物化学、生物以及其他复杂的跨领域学科,军队,医疗,影像档案,视频档案,大型电子商务。
下面还给了一些具体的数字:
这个对比很有意思:沃尔玛的数据比SDSS高一个量级,LHC的数据比沃尔玛的数据量高一个量级,而Facebook的数据则比LHC还高一个量级!
笔者在2005年左右的时候看到过一张图,因为很喜爱其中的含义,所以用在了自己的签名上:
498)this.width=498;'' onmousewheel = ''javascript:return big(this)'' src="/uploadfile/201301/12/1212176226.gif" width="490" border="0" height="260" alt="" />
但是前两天忽然发现,这张图里的Internet被23,993,564,998 MB的数据代表,换算过来只不过23PB,还不到一个Facebook的数据量!整个网络的数据积累速度之快,对于从上个世纪成长起来的人们而言实在是非常震惊。
接下来的问题就是,究竟谁会对这些数据感兴趣?
广告主
“我的广告费有一半被浪费了,但问题是我不知道是哪一半。”
—— 现代广告业之父 John Wanamaker
广告、市场营销涉及的范围很广,底层平台有网络媒体、社交网络、纸媒、电视、公交站旁的牌子、电梯口墙上的屏幕、学校食堂的桌子等等;中间层有广告投放系统、数据分析服务、做报告的;转化层有电子商务和实体店。
“今天我们放一个路牌广告,我可以告诉你西单路口一天两千万人可以看得到,这个数据是什么呢?真的是有一个人站在那去数这个事情吗?其实都不是。”
笔者前日拜访国双科技,其高级副总裁续扬先生这样描述起广告行业的万年问题——被浪费掉的一半。接下来,续扬先生开始感叹互联网带来的变革:
“互联网的出现,使在线的数据全部被采集成为了可能。”
也就是说,要了解用户的互联网行为,调查问卷、采样