大数据价值密度高还是低(大数据五大基本特点)

[关键词] 大数据; 非结构化信息; 解决核心问题; 未来挑战

一、引言

自上古时代的结绳记事起,人类就开始用数据来表征自然和社会,伴随着科技和社会的发展进步,数据的数量不断增多,质量不断提高。工 业革命以来,人类更加注重数据的作用,不同的行业先后确定了数据标准,并积累了大量的结构化数据,计算机和网络的兴起,大量数据分析、 查询、处理技术的出现使得高效的处理大量的传统结构化数据成为可能。而近年来,随着互联网 的快速发展,音频、文字、图片视频等半结构 化、非结构化数据大量涌现,社交网络、物联 网、云计算广泛应用,使得个人可以更加准确快 捷的发布、获取数据。在科学研究、互联网应用、电子商务等诸多应用领域,数据规模、数据 种类正在以极快的速度增长,大数据时代已悄然 降临。
大数据价值密度高还是低(大数据五大基本特点)

首先,全球数据量出现爆炸式增长,数据成 了当今社会增长最快的资源之一。根据国际数据公司 IDC 的监测统计,即使在遭遇金融危机的 2009 年,全球信息量也比 2008 年增长了 62% , 达到 80 万 PB ( 1PB 等于 10 亿 GB) ,到 2011 年全球数据总量已经达到 1. 8ZB ( 1ZB 等于 1 万亿 GB,) ,并且以每两年翻一番的速度飞速增长, 预计到 2020 年全球数据量总量将达到 40 ZB,10 年间增长 20 倍以上,到 2020 年,地球上人均数 据预计将达 5247GB。在数据规模急剧增长的同 时,数据类型也越来越复杂,包括结构化数据、半结构化数据、非结构化数据等多种类型,其中采用传统数据处理手段难以处理的非结构化数据 已接近数据总量的 75% 。

虽然大数据日益升温,但与大多数信息学领域的问题一样,大数据的基本概念及特点,大数 据要解决核心问题,目前尚无统一的认识,大数据的获取、存储、处理、分析等诸多方面仍存在 一定的争议,大数据概念有过度炒作的嫌疑。欧洲的一些企业甚至认为大数据就是海量数据存 储,仅将大数据视作是可以获取更多信息的平台。本文分析当前流行的几种大数据的概念,讨论其异同,从大数据据有的典型特征角度描述大数据的概念和特点,从整体上分析大数据要解决的相关性分析、实时处理等核心问题,在此基础上,最后讨论大数据可能要面临的多种挑战。

二、国内外开展的相关工作

三、大数据的概念与特点

大数据是一个较为抽象的概念,正如信息学领域大多数新兴概念,大数据至今尚无确切、统一的定义。在维基百科中关于大数据的定义 为: 大数据是指利用常用软件工具来获取、管理和处理数据所耗时间超过可容忍时间的数据集。笔者认为,这并不是一个精确的定义,因为无法确定常用软件工具的范围,可容忍时间也是 个概略的描述。IDC 在对大数据作出的定义为: 大数据一般会涉及 2 种或 2 种以上数据形式。它要收集超过 100TB 的数据,并且是高速、 实时数据流; 或者是从小数据开始,但数据每年会增长 60% 以上。这个定义给出了量化标准,但 只强调数据量大,种类多,增长快等数据本身的 特征。研究机构 Gartner 给出了这样的定义: 大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。这也是一个描述性的定 义,在对数据描述的基础上加入了处理此类数据的一些特征,用这些特征来描述大数据。当前, 较为统一的认识是大数据有四个基本特征: 数据规模大 ( Volume) ,数据种类多 ( Variety) ,数据 要求处理速度快 ( Velocity) ,数据价值密度低 ( Value),即所谓的四 V 特性。这些特性使得大 数据区别于传统的数据概念。大数据的概念与“海量数据”不同,后者只强调数据的量,而大 数据不仅用来描述大量的数据,还更进一步指出 数据的复杂形式、数据的快速时间特性以及对数据的分析、处理等专业化处理,最终获得有价值 信息的能力。

( 一) 数据量大

大数据聚合在一起的数据量是非常大的,根据 IDC 的定义至少要有超过 100TB 的可供分析的 数据,数据量大是大数据的基本属性。导致数据 规模激增的原因有很多,首先是随着互联网络的 广泛应用,使用网络的人、企业、机构增多,数据获取、分享变得相对容易,以前,只有少量的 机构可以通过调查、取样的方法获取数据,同时 发布数据的机构也很有限,人们难以短期内获取 大量的数据,而现在用户可以通过网络非常方便 的获取数据,同时用户在有意的分享和无意的点 击、浏览都可以快速的提供大量数据; 其次是随 着各种传感器数据获取能力的大幅提高,使得人 们获取的数据越来越接近原始事物本身,描述同 一事物的数据量激增。早期的单位化数据,对原 始事物进行了一定程度的抽象,数据维度低,数据类型简单,多采用表格的形式来收集、存储、整理,数据的单位、量纲和意义基本统一,存储、处理的只是数值而已,因此数据量有限,增长速度慢而随着应用的发展,数据维度越来越 高,描述相同事物所需的数据量越来越大。以当前最为普遍的网络数据为例,早期网络上的数据 以文本和一维的音频为主,维度低,单位数据量小。近年来,图像、视频等二维数据大规模涌现,而随着三维扫描设备以及 Kinect 等动作捕捉 设备的普及,数据越来越接近真实的世界,数据的描述能力不断增强,而数据量本身必将以几何级数增长。此外,数据量大还体现在人们处理数据的方法和理念发生了根本的改变。早期,人们对事物的认知受限于获取、分析数据的能力,一直利用采样的方法,以少量的数据来近似的描述事物的全貌,样本的数量可以根据数据获取、处理能力来设定。不管事物多么复杂,通过采样得 到部分样本,数据规模变小,就可以利用当时的技术手段来进行数据管理和分析,如何通过正确 的采样方法以最小的数据量尽可能分析整体属性成了当时的重要问题。随着技术的发展,样本数目逐渐逼近原始的总体数据,且在某些特定的应用领域,采样数据可能远不能描述整个事物,可 能丢掉大量重要细节,甚至可能得到完全相反的结论,因此,当今有直接处理所有数据而不是只 考虑采样数据的的趋势。使用所有的数据可以带来更高的精确性,从更多的细节来解释事物属性,同时必然使得要处理数据量显著增多。

( 二) 数据类型多样

( 三) 数据处理速度快

要求数据的快速处理,是大数据区别于传统海量数据处理的重要特性之一。随着各种传感器和互联网络等信息获取、传播技术的飞速发展普 及,数据的产生、发布越来越容易,产生数据的途径增多,个人甚至成为了数据产生的主体之一,数据呈爆炸的形式快速增长,新数据不断涌 现,快速增长的数据量要求数据处理的速度也要相应的提升,才能使得大量的数据得到有效的利用,否则不断激增的数据不但不能为解决问题带来优势,反而成了快速解决问题的负担。同时, 数据不是静止不动的,而是在互联网络中不断流动,且通常这样的数据的价值是随着时间的推移 而迅速降低的,如果数据尚未得到有效的处理, 就失去了价值,大量的数据就没有意义。此外, 在许多应用中要求能够实时处理新增的大量数据,比如有大量在线交互的电子商务应用,就具 有很强的时效性,大数据以数据流的形式产生、 快速流动、迅速消失,且数据流量通常不是平稳 的,会在某些特定的时段突然激增,数据的涌现特征明显,而用户对于数据的响应时间通常非常敏感,心理学实验证实,从用户体验的角度,瞬间 ( moment,3 秒钟) 是可以容忍的最大极限, 对于大数据应用而言,很多情况下都必须要在 1 秒钟或者瞬间内形成结果,否则处理结果就是过 时和无效的,这种情况下,大数据要求快速、持续的实时处理。对不断激增的海量数据数据的实 时处理要求,是大数据与传统海量数据处理技术的关键差别之一。

( 四) 数据价值密度低

四、大数据要解决的核心问题

与传统海量数据的处理流程相类似,大数据的处理也包括获取与特定的应用相关的有用数据,并将数据聚合成便于存储、分析、查询的形式; 分析数据的相关性,得出相关属性; 采用合适的方式将数据分析的结果展示出来等过程。大 数据要解决的核心问题与相应的这些步骤相关。

( 一) 获取有用数据

( 二) 数据分析

数据分析是大数据处理的关键,大量的数据本身并没有实际意义,只有针对特定的应用分析这些数据,使之转化成有用的结果,海量的数据 才能发挥作用。数据是广泛可用的,所缺乏的是

( 三) 数据显示

数据显示是将数据经过分析得到的结果以可见或可读形式输出,以方便用户获取相关信息。对于传统的结构化数据,可以采用数据值直接显示、数据表显示、各种统计图形显示等形式来表示数据,而大数据处理的非结构化数据,种类繁多,关系复杂,传统的显示方法通常难以表现, 大量的数据表、繁乱的关系图可能使用户感到迷茫,甚至可能误导用户。利用计算机图形学和图像处理的可视计算技术成为大数据显示的重要手段之一,将数据转换成图形或图像,用三维形体来表示复杂的信息,直接对具有形体的信息进行操作,更加直观,方便用户分析结果。若采用立 体显示技术,则能够提供符合立体视觉原理的绘制效果,表现力更为丰富。对于传统的数据表示方式,图表、数据通常是二维的,用户与计算机交互容易,而通过三维表现的数据,通常由于数据过于复杂,难以定位而交互困难,可以通过最近兴起的动作捕捉技术,获取用户的动作,将用户与数据融合在一起,使用户直接与绘制结果交互,便于用户认识、理解数据。数据显示以准确、方便的向用户传递有效信息为目标,显示方法可以根据具体应用需要来选择。

( 四) 实时处理数据的能力

大数据需要充分、及时地从大量复杂的数据 中获取有意义的相关性,找出规律。数据处理的 实时要求是大数据区别于传统数据处理技术的重要差别之一。一般而言,传统的数据处理应用对时间的要求并不高。运行 1 – 2 天获得结果依然是可以接受的。而大数据领域相当大的一部分应 用需要在 1 秒钟内或瞬间内得到结果,否则相关 的处理结果就是过时的、无效的。先存储后处理的批处理模式通常不能满足需求,需要对数据进 行流处理。由于这些数据的价值会随着时间的推移不断减少,实时性成了此类数据处理的关键。而数据规模巨大、种类繁多、结构复杂,使得大数据的实时处理极富挑战性。数据的实时处理要 求实时获取数据,实时分析数据,实时绘制数 据,任何一个环节慢都会影响系统的实时性。当 前,互联网络以及各种传感器快速普及,实时获取数据难度不大; 实时分析大规模复杂数据是系统的瓶颈,也是大数据领域亟待解决的核心问题; 数据的实时绘制是可视计算领域的热点问题,GPU 以及分布式并行计算的飞速发展使得复杂数据的实时绘制成为可能,同时数据的绘制可以根据实际应用和硬件条件选择合适的绘制方式。

五、大数据面临的挑战

( 一) 不能完全代替传统数据

( 二) 数据保护

大数据时代,互联网络的发展使得获取数据十分便利,给信息安全带来了巨大的挑战。当前,数据安全形势不容乐观,需要保护的数据量增长已超过了数据总量的增长。据IDC 统计: 2010 年仅有不到 1 /3 的数据需要保护,到 2020 年这一比例将超过 2 /5; 2012 年的统计显示,虽 然有 35% 的信息需要保护,但实际得到保护的不到 20% 。在亚洲、南美等新兴市场,数据保护的缺失更加严重。首先个人隐私更容易通过网络泄 露,随着电子商务、社交网络的兴起,人们通过网络联系的日益紧密,将个人的相关数据足迹聚 集起来分析,可以很容易获取个人的相关信息, 隐私数据就可能暴露,而数据在网络上的发布机制使得这种暴露似乎防不胜防;在国家层面,大 数据可能给国家安全带来隐患,如果在大数据处理方面落后,就可能导致数据的单向透明,美国发布大数据研发计划,大力发展大大数据技术就有增强国家安全方面的战略考量。

( 三) 相关性预知

大数据时代,人们不再认为数据是静止和陈旧的,而是流动的、不断更新的。大数据是人们获得新的认知,创造新的价值的源泉,通过分析 数据的相关性可能预知事物的发展方向。但是从数据来的结论不一定能反映真实,比如随着数据 的增多,会带来部分错误的数据,使得数据价值大大降低,影响分析的结果,甚至可能得出错误 的结论。此外,大数据获取的统计学上的宏观结 论,对于一些微观的问题并没有意义,比如抛硬币,抛的次数越多,得到正反两面的次数越接 近,概率越接近 0. 5,但不管已经抛了多少次, 还是不能分析出下一次得到正面还是反面。因 此,不能希望通过大数据可以预知一切。

六、结语

[参考文献]

Obama Administration Unveils “BigData”Initative: Announces $ 200 Million in New R&D Investments. Office ofScience and Technology Policy Executive Office of the President. 2012. 5.

David Reinsel,John Gantz. The DigitalUniverse in 2020: Big Data,Bigger Digital Shadows,and Biggest Growth in the FarEast. 2012,12.

Tony Hey,Stewart Tansley. The FourthParadigm: Data – Intensive Scientific Discovery. Microsoft, 2009. 10.

托夫勒. 第三次浪潮[M]. 北京: 中信出版社,2006. Big Data. Nature,2008,455( 7209) : 1 – 136. Dealing withdata. Science,2011,331( 6018) : 639 – 806. 李国杰,程学旗.大数据研究:未来科技及经济社会 发展的重大战略领域———大数据的研究现状与科学思考[J]. 中国科学院院刊. 2012( 06) : 647 – 657. 孟小峰,慈祥. 大数据管理概念技术与挑战[J]. 计算 机研究与发展,2013,50( 1) : 146 – 169. 覃雄派,王会举,杜小勇,王 珊. 大数据分析——— RDBMS 与 MapReduce 的竞争与共生[J]. 软件学 报 ,2 0 1 2 ,2 3 ( 1 ) : 3 2 – 4 5 .

王珊,王会举,覃雄派,周烜.架构大数据: 挑战、现状与展望[J].计算机学报,2012,34( 10):1741- 1752.

维克托·迈尔 – 舍恩伯格. 大数据时代[M]. 上海: 浙江人民出版社,2012.

Martin Klubeck. 量化: 大数据时代的企业管理[M]. 北京: 人民邮电出版,2013.

朱志军,闫蕾. 转型时代丛书:大数据·大价值、大机遇、大变革[M]. 北京: 电子工业出版社,2012. Bigdata,http: / / en. wikipedia. org / wiki / Big_data.

Benjamin Woo World wide Big Data Technologyand Services 2012 – 2015 Forecast. 2012. 5 [16]Big data http: / / www. gartner.com / it – glossary / big – data.

发表评论

登录后才能评论