UP | HOME

大数据的信息时代:机遇与挑战

Table of Contents

如今,“大数据1”一词越来越火热。虽然它的确切定义还比较模糊,但仍可以就其特征做一些描述性的解释。让我们从“数据”与“信息”的概念着手,对大数据时代来一次简单的预览,对它有一个初步的印象。

数据与信息

什么是 数据 ?就是单个的或一连串的数值。数据它本身没什么意义,只有将它与具体的事物关联起来才有意义。比如, 69.4, 单看它没任何意思,但如果它代表了我昨天晚上 22:00 体重计上的公斤数,它对我就有意义了;如果将它与我们单位年龄在 25 到 40 岁之间男性职工的平均体重数联系起来,它就对更多的人产生了意义。我们将数据及与之关联的内容称之为 信息 。哪些是我们关心的关联内容呢?通常有 5W, 即什么主体 (Who), 什么事 (What), 什么地点 (Where), 什么时间 (When), 什么方式 (hoW); 有时还要加上两个——为什么 (Why), 什么对象 (Which), 从而形成了 7W. 因此,有一个简单的公式:

                        信息 = 数据 + 7W

                    

上述公式中的 7W 不一定全有,有些信息只需要其中几条即可。

独立的数据通常会被直接忽略掉,因为没什么意义。我们通常所说的“数据”,也与“信息”等同,即默认包含有特定的关联内容,或者其关联内容被默认省略掉,但我们都知道是什么。这样说来,宇宙的终极理论是 422, 这个答案可能是对的,但它没任何意义。

我们为什么要关心数据?或者说,我们为什么要关注信息?因为,数据的意义在于辅助决策,就是说,数据可以让我们下定决心来做哪些事儿。比如今天口袋里只有 100 元钱,且没有其它途径获得更多的钱,但又要请朋友吃饭,那么,针对 100 这个数据,我可以下这样的决定:“嘿,老朋友,尝过街头新开的那家家常菜吗?据说不错,去试试吧?”然后坚决阻止让朋友产生到更贵餐馆的念头。瞧,数据的作用就是这样。数据的另一个巨大的意义,在于辅助认知。量化,是现代科学的标志性手段。而认知的结果更能够辅助我们做出正确的决策。所以,归根结底,数据的意义在于辅助决策。

什么是大数据?

什么是 大数据 ?大数据曾经也称为“海量数据”,或“巨数据”等。按照信息管理开放标准 MIKE2.03 的定义,“大数据”可从三个方面来衡量4:1) 数据结构的复杂程度;2) 数据的量,它是否大到需要研发新的数据分析技术;3) 数据分析所需要的纵向信息量,即分析一组数据所需要的关联数据有多大。而根据原麦塔集团 (META Group, 已被高德纳咨询公司收购) 和 Villanova 大学的定义,“大数据”还可用 4V 来衡量,即数据量 Volume, 数据交换速度 Velocity, 数据多样性 Variety, 以及数据的真实性 Veracity. 因此,“什么是大数据”这个问题尚没有统一的答案。但简单来讲,我们可以认为,它指的就是多种多样、数量巨大的数据。

大数据是如何产生的?其实,人类社会从有文字记载开始,就在不停地产生数据——市场交易价格、军队的士兵数量、国库收入和税率,等等,而文本本身也可视为特殊的数据。但电子计算机与互联网技术的发展,数字化技术的发展,这些让数据发生了爆炸式递增——地理信息系统、气象资料、水文地质资料、交通监控录像、银行与股市交易、数字影像、各式商品信息、社交网络中的人际互动、论坛中的口水仗、微博中的实时广播信息……当然,还有实验室里产生的海量研究数据。

数据的直觉

直觉,在认知科学中指的是这样的一个思考过程,即不需要太多思考就可以直接给出结论、做出决定或者采取行动。所谓“数据的直觉”,指的是,我们对于特定范围内的数据能够迅速形成决策。

量的变化,也意味我们思维尺度的变化。人的大脑能够产生直觉的尺度,其实很有限。简单地说,我们对于宏观、低速的东西很容易形成直觉。比如:在真空玻璃管中,苹果与羽毛可以同时落下,看过一次,直觉就会形成;但对于高速情形下的钟慢尺短效应,则只能够通过逻辑慢慢形成直觉,甚至有人永远产生不了这样的直觉。

对于数据,我们也有这样的直觉。比如家庭的收入与用度开支,因为这只涉及到有限的几个人,你可以心算出来,并对 100 元钱能够请客的档次产生直觉判断;但对于国民经济生产总值的增速会对应什么样的结果,多数人无法产生直觉,因为它对应的人数超出了我们能够判断的范围,它听起来也就是个数字。人类早期语言中通常没有大数的概念,比如在东巴文中“万”就代表了“无限”,这大概是由于大数超出了直觉的范围。

当数据量大到一定程度时,我们就需要把数据的尺度“降低”到可产生直觉判断的范围来思考,“降低”数据的方法通常有求比例、取对数、降维,等等。比如世界总人口约 70 亿,文盲的人口约 11.9 亿,这个有些人就无法理解;但如果把世界缩小成一个只有 100 人的村庄5,其中有 17 人是文盲,多数人就会有直观的概念了。

大数据影响了我们的数据直觉。如果大数据不能够辅助我们决策,它也没有什么意义。

大数据有多“大”?

二进制是电子计算机的基础,一个八位二进制数称为一个“字节”,一般用字母 B 来表示,它是计算机中处理信息的基本单位。我们常说的 32-位计算机,指的是计算机的中央处理器能够一次性处理的数据长度是一个 32 位的数字,也就是 4 个字节长。一个字节的数据太小了。信息存储与处理中,通常以 1024 倍(即 210)为单位递进,常用的单位有:

  • 1 KiB (kilo, 千) = 1,024 B;
  • 1 MiB (mega, 兆) = 1,024 KiB = 1,048,576 B;
  • 1 GiB (giga, 吉) = 1,024 MiB;
  • 1 TiB (tera, 太) = 1,024 GiB;
  • 1 PiB (peta, 拍) = 1,024 TiB = 1,048,576 GiB = 1,073,741,824 MiB;
  • 1 EiB (exa, 艾) = 1,024 PiB = 1,048,576 TiB = 1,073,741,824 GiB;;
  • 1 ZiB (zetta,皆) = 1,024 EiB = 1,048,576 PiB = 1,073,741,824 TiB;
  • 1 YiB (yotta,尧) = 1,024 ZiB = 1,048,576 EiB = 1,073,741,824 PiB;

以前的 1 KB 既指代 1,024 B, 也有时指代 1000 B, 导致很多混淆。后来为示区别,就在单位之后添加 i 来表示信息单位上的 1,024 倍递进关系,所以,现在的 1 KB 就专指 1000 B 了。加 i 的单位也称为“二进制乘数词头”。

一个家庭帐单,用纯文本或者 Excel 格式来存放,估计就 1 MiB 大小,也就是一百万个字节左右。但一段婚礼视频可能需要 4 GiB 左右的空间。一个家庭累积的视频、照片、文本等资料通常不会超过 1 TiB.

个人、家庭或者社区产生的数据量,其实是有限的。但当这个范围扩展到整个人类社会时,就非常惊人了。那么,人类目前产生的数据量有多大呢6

  • 2010 年世界产生的数据如果用 DVD 来存储,以一张 DVD 为 4.6 GiB 存储量来计算,这些 DVD 可以从地球垒到月球,然后再回来。
  • 2012 年,我们平均每天约产生 2.5 EiB 字节的数据量。

大数据的“大”不仅表现在数量上,还表现在速度上。据估计,以 2013 年六月为例,每分钟6——

  • Google 处理超过 2 百万次搜索;
  • 互联网传递了超过一千万封电子邮件;
  • 美国 Sprint 处理了超过 25 万次电话通话;
  • 零售商沃尔玛约处理了 17,000 次交易;
  • YouTube 接收了约 72 小时长度的视频上载;
  • Facebook 处理了约 325 GiB 的数据量。

好吧,我承认上述这些数据有点超出了我们的数据直觉。但你可以自行按照求比例、取对数的方法把这些数据降低到能够直观理解的范围。

大数据的挑战

人类的计算模式随着数据量发生了很大的变化。没有文字之前,可能用指头来计算。文字产生之后,可能用结绳、刀刻。纸张产生之后,可能借助纸与笔,或者算筹、算盘等工具。早期的电子计算机主要在于运算,大量的数据还是打印在纸张上,比如早期的核数据表格。如今,电子化存储的数据量已经大到不可能再用打印的形式来保存了,这必然导致一场新的计算革命,而我们正在面对着这场革命性的改变——大数据的挑战。

大数据,首先是尺度的变化,然后是形式、方法、模式与内容的变化。按照数据处理的流程,大数据的挑战分为这样几个方面:采集、传输、存储、分析与可视化、检索等。

数据的采集途径是多种多样的:监控录像、手机短信、车载 GPS、视频电话、ATM 终端机、自动售货机、公交刷卡机、医院的监护仪、各种气象探测器、入户的水电气表头、……这些种类繁杂的数据每时每刻都在产生着,它们交汇在一起,如果全部通过互联网传输,那会是一股多么巨大的数据洪流。因此,能够承载这股数据洪流的基础设施是大数据的挑战之一。

我们每个人产生的数据有限,比如今天一个 3 TB 的硬盘基本可以满足家用。我们可将个人数据存储当成一个数据水桶来看待;那么,一个城区的数据则可看成一个数据池塘;而全人类的数据,那绝对是一个数据海洋了。这些数据如何存储是大数据的挑战之二。

我们从个人电脑中寻找一个文件并打开,可能非常方便。但如果不借助搜索引擎,直接从优酷上寻找一段某人上载的视频,那会非常麻烦,甚至都不可能找到。数据的检索,这是大数据的挑战之三。

不管数据量有多大,最终能够帮助我们做出决策的是“ 小数据7,即分析的结果。数据分析的目的是寻找到最终的那个能够辅助决策的一个或多个数据,或者是一张趋势图,或者是一幅结构图。比如美国总统大选,一张张的选票不过是中间过程,其最终的比例才是最有意义的。家庭的帐单,手算都可以,但如果是国民经济的发展趋势,则必须借助适当的计算机程序与方法才能够给出可参考的值。天气预报给出一堆的网格边界条件的数值没有意义,能给出特定区域的降水概率才是。数据的分析与可视化,这是大数据的挑战之四。

大数据并不是解决一切的灵丹妙药,它仅仅是一种基础资源,如何利用这种基础资源才是最重要的事情。事实上,上述这些大数据挑战中,尤为关键的还是数据分析与可视化。这儿的“可视化”,不仅仅指的是用图像展现数据,更抽象地说,是指把重要的结果展示出来,对于不能够产生直觉判断的数据,改变其形式,从而辅助人的理解并产生决策的直觉。大数据的分析与可视化,有时也称为“数据挖掘”。

大数据的信息时代——新的机遇

大数据是一种新的资源,新的资源意味着新的机遇。

在商务上,这些机遇展现在多个方面:

  • 利用大数据,开发出新的商业模式。比如,在保障隐私的情况下进行精确定位广告。
  • 利用大数据开拓新的市场。比如,利用长尾效应的电子商务就是一个成功的案例。
  • 利用大数据进行商业成本优化。比如,通过数据挖掘实现“零库存”营销。
  • 等等。

在公共社会服务方面,基于大数据的基础设施与服务也是新的机遇。人的记忆会出现遗漏与偏差,但监控录像等数据则相对客观,利用这些数据进行破案则是个好的选择。比如,台湾 2013 年的八里双尸案,警方与民政系统调用 305 个监控录像长达 1 个月的数据,成功将疑犯抓获。除了破案,Google 工程师于 2009 年根据搜索引擎数据还成功地预测了美国冬天的流感。

大数据还有可能改变公共服务的模式。比如,乘客在车站通过通过触摸乘车系统点击自己的目的地,自动调度系统可以根据每个公交车站的实时摄像数据与乘客的目的地数据进行计算,在最大化节约资源的条件下安排发车频率,甚至可以自动改变乘车路线。

大数据对于科学研究同样是机遇。前文说到,量的变化,也是思维尺度的变化。回顾一下科学史,在不同的数据尺度上,我们往往会有新的发现。人类很早就开始仰望星空并记录了许多天体的运行位置,但系统地观测并积累了大量数据的是第谷·布拉赫;从第谷的数据中,开普勒总结出了行星运动三大定律;之后,牛顿又进一步发现了经典力学;持续的天文观测又发现了水星近日点的进动与牛顿力学存在矛盾,这个问题直到爱因斯坦的广义相对论出现才得以解决。物理学与天文学的这个典型例子表明,数据的积累对学科的发展何其重要。同样,也正是化学元素与物质属性的数据积累到一定程度,才导致元素周期表被发现。当然,现代的许多科学研究本身正是大数据的生产者,比如高能物理实验,每年平均产生约 100 PiB 的实验数据。

正是由于大数据对于科学发现的重要性,目前,一个新的关于大数据的学科正在酝酿中,通常称之为“数据科学”。Columbia 大学已经成立了一个“数据科学与工程研究所”8,包含有六个研究中心——网络安全、健康分析、金融分析、新媒体、智能城市和“数据科学基础”。

大数据是一种基础资源,那这种资源的利用与挖掘,需要更多的数据人才。据相关报道9,对于数据分析科学家,美国至 2018 年会面临大约 19 万名的人才缺口,对于掌握大数据分析与决策的管理人员与分析师,可能面临约 150 万名人才缺口。而在中国,相关构造大数据学科的计划也正酝酿中。

大数据,意味着巨量的信息,大数据也正是“信息时代”的特色之一。思想之树错综复杂,它展现在众人面前的往往是一两句看似简单的座右铭,但其背后却牵扯着一棵根繁叶茂的大树,比如“脑中有科学,心中有道义”。同样,数据挖掘,也是从那错综复杂的数据关联中找到那关键的点,从而做出精准的决策。在大数据的信息时代,大数据的基础建设不仅是挑战,大数据的挖掘与利用更是机遇——把握住吧。

Footnotes:

1

参见维基百科:

2

参见 Adams Douglas 的小说《银河系漫游指南》 – http://www.douglasadams.com/

3

MIKE2.0 代表“综合知识环境的方法学”,即 Method for an Integrated Knowledge Environment, 它是一个商务信息管理的开放方法。参见网站 http://mike2.openmethodology.org/

7

参见报道 Big data in the house.

8

Columbia University, also in New York, Institute for Data Sciences and Engineering, http://idse.columbia.edu/

88x31.png

版权所有 ©2012-2018: 心蛛 | 日期: 2013-09-18 三 00:00

Generated by Emacs 25.3.1 (Org mode 9.1.7), Validate