大数据时代数据管理方式研究_工具

大数据时代数据管理方式研究

1数据管理技术的回顾

数据管理技术主要经历了人工管理阶段、文件系统阶段和数据库系统阶段。随着数据应用领域的不断扩展，数据管理所处的环境也越来越复杂，目前广泛流行的数据库技术开始暴露出许多弱点，面临着许多新的挑战。

11 人工管理阶段

20 世纪 50 年代中期，计算机主要用于科学计算。当时没有磁盘等直接存取设备，只有纸带、卡片、磁带等外存，也没有 *** 作系统和管理数据的专门软件。该阶段管理的数据不保存、由应用程序管理数据、数据不共享和数据不具有独立性等特点。

12 文件系统阶段

20 世纪 50 年代后期到 60 年代中期，随着计算机硬件和软件的发展，磁盘、磁鼓等直接存取设备开始普及，这一时期的数据处理系统是把计算机中的数据组织成相互独立的被命名的数据文件，并可按文件的名字来进行访问，对文件中的记录进行存取的数据管理技术。数据可以长期保存在计算机外存上，可以对数据进行反复处理，并支持文件的查询、修改、插入和删除等 *** 作。其数据面向特定的应用程序，因此，数据共享性、独立性差，且冗余度大，管理和维护的代价也很大。

13数据库阶段

20 世纪 60 年代后期以来，计算机性能得到进一步提高，更重要的是出现了大容量磁盘，存储容量大大增加且价格下降。在此基础上，才有可能克服文件系统管理数据时的不足，而满足和解决实际应用中多个用户、多个应用程序共享数据的要求，从而使数据能为尽可能多的应用程序服务，这就出现了数据库这样的数据管理技术。数据库的特点是数据不再只针对某一个特定的应用，而是面向全组织，具有整体的结构性，共享性高，冗余度减小，具有一定的程序与数据之间的独立性，并且对数据进行统一的控制。

2大数据时代的数据管理技术

大数据（big data），或称巨量资料，指的是所涉及的资料量规模巨大到无法透过目前主流软件工具，在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。大数据有 3 个 V,一是大量化（Volume），数据量是持续快速增加的，从 TB级别，跃升到 PB 级别；二是多样化（Variety），数据类型多样化，结构化数据已被视为小菜一碟，、音频、视频等非结构化数据正以传统结构化数据增长的两倍速快速创建；三是快速化（Velocity），数据生成速度快，也就需要快速的处理能力，因此，产生了“1 秒定律”,就是说一般要在秒级时间范围内给出分析结果，时间太长就失去价值了，这个速度要求是大数据处理技术和传统的数据挖掘技术最大的区别。

21 关系型数据库（RDBMS）

20 世纪 70 年代初，IBM 工程师 Codd 发表了著名的论文“A Relational Model of Data for Large Shared DataBanks”,标志着关系数据库时代来临。关系数据库的理论基础是关系模型，是借助于集合代数等数学概念和方法来处理数据库中的数据，现实世界中的实体以及实体之间的联系非常容易用关系模型来表示。容易理解的模型、容易掌握的查询语言、高效的优化器、成熟的技术和产品，使得关系数据库占据了数据库市场的绝对的统治地位。随着互联网 web20 网站的兴起，半结构化和非结构化数据的大量涌现，传统的关系数据库在应付 web20 网站特别是超大规模和高并发的 SNS（全称 Social Networking Services,即社会性网络服务）类型的 web20 纯动态网站已经显得力不从心，暴露了很多难以克服的问题。

22 noSQL数据库

顺应时代发展的需要产生了 noSQL数据库技术，其主要特点是采用与关系模型不同的数据模型，当前热门的 noSQL数据库系统可以说是蓬勃发展、异军突起，很多公司都热情追捧之，如：由 Google 公司提出的 Big Table 和 MapReduce 以及 IBM 公司提出的 Lotus Notes 等。不管是那个公司的 noSQL数据库都围绕着大数据的 3 个 V,目的就是解决大数据的 3个 V 问题。因此，在设计 noSQL 时往往考虑以下几个原则，首先，采用横向扩展的方式，通过并行处理技术对数据进行划分并进行并行处理，以获得高速的读写速度；其次，解决数据类型从以结构化数据为主转向结构化、半结构化、非结构化三者的融合的问题；再次，放松对数据的 ACID 一致性约束，允许数据暂时出现不一致的情况，接受最终一致性；最后，对各个分区数据进行备份（一般是 3 份），应对节点失败的状况等。

对数据的应用可以分为分析型应用和 *** 作型应用，分析型应用主要是指对大量数据进行分类、聚集、汇总，最后获得数据量相对小的分析结果； *** 作型应用主要是指对数据进行增加、删除、修改和查询以及简单的汇总 *** 作，涉及的数据量一般比较少，事务执行时间一般比较短。目前数据库可分为关系数据库和 noSQL数据库，根据数据应用的要求，再结合目前数据库的种类，所以目前数据库管理方式主要有以下 4 类。

（1）面向 *** 作型的关系数据库技术。

首先，传统数据库厂商提供的基于行存储的关系数据库系统，如 DB2、Oracle、SQL Server 等，以其高度的一致性、精确性、系统可恢复性，在事务处理方面仍然是核心引擎。其次，面向实时计算的内存数据库系统，如 Hana、Timesten、Altibase 等通过把对数据并发控制、查询和恢复等 *** 作控制在内存内部进行，所以获得了非常高的性能，在很多特定领域如电信、证券、网管等得到普遍应用。另外，以 VoltDB、Clustrix 和NuoDB 为代表的 new SQL 宣称能够在保持 ACDI 特性的同时提高了事务处理性能 50 倍 ~60 倍。

（2）面向分析型的关系数据库技术。

首先，TeraData 是数据仓库领域的领头羊，Teradata 在整体上是按 Shared Nothing 架构体系进行组织的，定位就是大型数据仓库系统，支持较高的扩展性。其次，面向分析型应用，列存储数据库的研究形成了另一个重要的潮流。列存储数据库以其高效的压缩、更高的 I/O 效率等特点，在分析型应用领域获得了比行存储数据库高得多的性能。如：MonetDB 和 Vertica是一个典型的基于列存储技术的数据库系统。

（3）面向 *** 作型的 noSQL 技术。

有些 *** 作型应用不受 ACID 高度一致性约束，但对大数据处理需要处理的数据量非常大，对速度性能要求也非常高，这样就必须依靠大规模集群的并行处理能力来实现数据处理，弱一致性或最终一致性就可以了。这时， *** 作型 noSQL数据库的优点就可以发挥的淋漓尽致了。如，Hbase 一天就可以有超过 200 亿个到达硬盘的读写 *** 作，实现对大数据的处理。另外，noSQL数据库是一个数据模型灵活、支持多样数据类型，如对图数据建模、存储和分析，其性能、扩展性是关系数据库无法比拟的。

（4）面向分析型的 noSQL 技术。

面向分析型应用的 noSQL 技术主要依赖于Hadoop 分布式计算平台，Hadoop 是一个分布式计算平台，以 HDFS 和 Map Reduce 为用户提供系统底层细节透明的分布式基础架构。《Hadoop 经典实践染技巧》传统的数据库厂商 Microsoft,Oracle,SAS,IBM 等纷纷转向 Hadoop 的研究，如微软公司关闭 Dryad 系统，全力投入 Map Reduce 的研发，Oracle 在 2011 年下半年发布 Big Plan 战略计划，全面进军大数据处理领域，IBM 则早已捷足先登“,沃森（Watson）”计算机就是基于 Hadoop 技术开发的产物，同时 IBM 发布了 BigInsights 计划，基于 Hadoop,Netezza 和 SPSS（统计分析、数据挖掘软件）等技术和产品构建大数据分析处理的技术框架。同时也涌现出一批新公司来研究Hadoop 技术，如 Cloudera、MapRKarmashpere 等。

3数据管理方式的展望

通过以上分析，可以看出关系数据库的 ACID 强调数据一致性通常指关联数据之间的逻辑关系是否正确和完整，而对于很多互联网应用来说，对这一致性和隔离性的要求可以降低，而可用性的要求则更为明显，此时就可以采用 noSQL 的两种弱一致性的理论 BASE 和 CAP关系数据库和 noSQL数据库并不是想到对立的矛盾体，而是可以相互补充的，根据不同需求使用不同的技术，甚至二者可以共同存在，互不影响。最近几年，以 Spanner 为代表新型数据库的出现，给数据库领域注入新鲜血液，这就是融合了一致性和可用性的 newSQL,这种新型思维方式或许会是未来大数据处理方式的发展方向。

4 结束语

随着云计算、物联网等的发展，数据呈现爆炸式的增长，人们正被数据洪流所包围，大数据的时代已经到来。正确利用大数据给人们的生活带来了极大的便利，但与此同时也给传统的数据管理方式带来了极大的挑战。

如何看待国产数据库SequoiaDB开源

总的来说，我认为有几点吧

1）相比mongo还是有中文的齐全文档，作为中国的码农。。英文文档看得还是头疼啊。

2）应该说开源社区这边的支持还是比较快速的，在群里提问基本当天都会有人回答，然后在刚开始配置和对接程序的时候原厂的同学还在区里手把手教了我们的工程师。。还是很给力的

3）总体上说使用和迁移转换时候不会不上手，不过现在据说多了SQL的支持，还没有尝试过，听起来很厉害的样子，不过他们原生的 *** 作语句也还是很好理解的

如何看待yandex开源clickhouse这个列式文档数据库

Yandex在2016年6月15日开源了一个数据分析的数据库，名字叫做ClickHouse，这对保守俄罗斯人来说是个特大事。更让人惊讶的是，这个列式存储数据库的跑分要超过很多流行的商业MPP数据库软件，例如Vertica。如果你没有听过Vertica，那你一定听过 Michael Stonebraker，2014年图灵奖的获得者，PostgreSQL和Ingres发明者（Sybase和SQL Server都是继承 Ingres而来的）, Paradigm4和SciDB的创办者。Michael Stonebraker于2005年创办Vertica公司，后来该公司被HP收购，HP Vertica成为MPP列式存储商业数据库的高性能代表，Facebook就购买了Vertica数据用于用户行为分析。

简单的说，ClickHouse作为分析型数据库，有三大特点：一是跑分快，二是功能多，三是文艺范

1 跑分快： ClickHouse跑分是Vertica的5倍快：

ClickHouse性能超过了市面上大部分的列式存储数据库，相比传统的数据ClickHouse要快100-1000X，ClickHouse还是有非常大的优势：

100Million 数据集:

ClickHouse比Vertica约快5倍，比Hive快279倍，比My SQL快801倍

1Billion 数据集:

ClickHouse比Vertica约快5倍，MySQL和Hive已经无法完成任务了

2 功能多：ClickHouse支持数据统计分析各种场景

- 支持类SQL查询，

- 支持繁多库函数（例如IP转化，URL分析等，预估计算/HyperLoglog等）

- 支持数组(Array)和嵌套数据结构(Nested Data Structure)

- 支持数据库异地复制部署

3文艺范：目前ClickHouse的限制很多，生来就是为小资服务的

- 目前只支持Ubuntu系统

- 不提供设计和架构文档，设计很神秘的样子，只有开源的C++源码

- 不理睬Hadoop生态，走自己的路

如何看待阿里巴巴宣布开放开源AliSQL数据库

其实有点类似，谷歌开放安卓系统给大家免费用，

某些技术别人要模仿不难，而且专利有效期也不长，

谷歌可能觉得还不如一下子公开了，大家一起弄，能迅速占领市场

如何看待黑客入侵数据库

内网。内鬼和外面的黑客一起合作搞的。内鬼的话就比较容易了。

如何看待美国研发的数据库TokuDB

测试过 TokuMX, 性能确实不错，但稳定性堪忧，mongodb 30 后引入了 wiredtiger engine，与 tokumx 差距缩小了

研究过 TokuMX 和 TokuDB 用的索引数据结构，很巧妙的设计，虽然树的深度加倍了，但插入时间确实大幅度降低了。

最后没有采用。

如何看待免费开源CRM

免费开源CRM基本上很难满足企业的实际业务需求，可以考虑一款支持用户个性化定制的CRM，百会的CRM就不错，它可以根据用户需求，在最短时间内定制出来并让用户看到效果。满意之后再付费，没有后顾之忧。定制工具简单，定制速度快。用户完全可以自己 *** 作去满足未来业务的变化。另外它基于SAAS模式的在线租用形势，可以为企业节省购买硬件、安装调试、后期升级的费用成本。定期的售后回访还可以解决不少使用中的问题。

如何看待Facebook已开源React Native

React Native项目成员Tom Ohino发表的React Native: Bringing modern web techniques to mobile（墙外地址）详细描述了React Native的设计理念。Ohino认为尽管Native开发成本更高，但现阶段Native仍然是必须的，因为Web的用户体验仍无法超越Native：

1 Native的原生控件有更好的体验；

2 Native有更好的手势识别；

3 Native有更合适的线程模型，尽管Web Worker可以解决一部分问题，但如图像解码、文本渲染仍无法多线程渲染，这影响了Web的流畅性。

Ohino没提到的还有Native能实现更丰富细腻的动画效果，归根结底是现阶段Native具有更好的人机交互体验。笔者认为这些例子是有说服力的，也是React Native出现的直接原因。

图3 - Ohino在F8分享了React Native（Keynote）

Learn once, write anywhere

“Learn once, write anywhere”同样出自Ohino的文章。因为不同Native平台上的用户体验是不同的，React Native不强求一份原生代码支持多个平台，所以不提“Write once, run anywhere”（Java），提出了“Learn once, write anywhere”。

图4 - “Learn once, write anywhere”

这张图是笔者根据理解画的一张示意图，自下而上依次是：

1 React：不同平台上编写基于React的代码，“Learn once, write anywhere”。

2 Virtual DOM：相对Browser环境下的DOM（文档对象模型）而言，Virtual DOM是DOM在内存中的一种轻量级表达方式（原话是ligheight representation of the document），可以通过不同的渲染引擎生成不同平台下的UI，JS和Native之间通过Bridge通信（React Native通信机制详解 « bang’s blog）。

3 Web/iOS/Android：已实现了Web和iOS平台，Android平台预计将于2015年10月实现（Blog | React）。

前文多处提到的React是Facebook 2013年开源的Web开发框架，笔者在翻阅其发布稿时，发现这么一段：

图5 - 摘自React发布稿（2013）

1 加亮文字显示2013年已经在开发React Native的原型，现在也算是厚积薄发了。

2 最近另一个比较火的项目是Flipboard/react-canvas · GitHub（详见 @rank），渲染层使用了Web Canvas来提升交互流畅性，这和上图第一个尝试类似。

React本身也是个庞大的话题不再展开，详见facebook/react Wiki · GitHub。

笔者认为“Write once, run anywhere”对提升效率仍然是必要的，并且和“Learn once, write anywhere”也没有冲突，我们内部正在改造已有的组件库和HybridAPI，让其适配（补齐）React Native的组件，从而写一份代码可以运行在iOS和Web上，待成熟后开源出来。

持续更新

二、规划

下图展示了业务和技术为React Native所做的改造：

图6 - 业务和技术改造图6 - 业务和技术改造

自下而上：

1 React Node：React支持服务端渲染，通常用于首屏服务端渲染；典型场景是多页列表，首屏服务端渲染翻页客户端渲染，避免首次请求页面时发起2次请求。

2 React Native基础环境：

21 Framework集成：尽管React Native放出了Integration with Existing App文档，集成到现有复杂App中仍然会遇到很多细节问题，比如集成到天猫iPad客户端就花了组里iOS同学2天的时间。

22 Neorking改造：主要是重新建立session，而session通常存放于 header cookie中，React Native提供的网络IO fetch和XML>

大数据热门词汇汇总

可以说，大数据是如今IT行业最热门的趋势之一，它催生出了处理大数据的一批全新技术。而新技术带来了新的热门词汇：首字母缩略词、专业术语和产品名称等。连"大数据"这个短语本身都让人犯晕。许多人一听到"大数据"，觉得是指"大量数据"，而大数据的涵义绝不仅仅涉及数据量的多寡。

下面是我们认为你要熟悉的几个热门词汇，按字母顺序排列。

ACID

ACID的全称是原子性、一致性、隔离性和持久性，这其实是一组需求或属性：如果这四个方面都得到遵守，就能在处理过程中确保数据库事务的数据完整性。虽然ACID问世已有一段时日，但是事务数据量的急剧增长把更多的注意力投向在处理大数据时需要满足ACID的规定。

大数据三要素

如今的IT系统在生成数量、速度和种类都很"庞大"的数据。

数量：IDC公司估计，今年全球信息总量将达到27泽字节（这相当于27亿太字节），而且每两年就翻一番。

速度：让IT管理人员们头痛的不仅仅是数据数量，还有数据从金融系统、零售系统、网站、传感器、无线射频识别（RFID）芯片以及Facebook和推特等社交网络源源而来的速度越来越快。

种类：如果回到5年前或可能10年前，IT人员处理的主要是字母数字数据，它们很容易存储在关系数据库中整齐排列的行和列中。现在不再是这样了。如今，推特和Facebook上的帖子、各种文档及网页内容等非结构化数据都是大数据组合的一部分。

列式（或列型）数据库

一些新一代数据库（如开源Cassandra和惠普的Vertica数据库）被设计成了按列存储数据，而不是像传统的SQL数据库那样按行存储数据。这种设计提供了更快的磁盘访问速度，提高了处理大数据时的性能。对数据密集型业务分析应用系统而言，列式数据库尤其受到欢迎。

数据仓库

数据仓库这个概念存在至今已有大概25年了，具体指将数据从多个 *** 作IT系统复制到面向业务分析应用系统的辅助离线数据库

但是随着数据量急剧增长，数据仓库系统正在迅速改变。它们需要存储更多的数据以及更多种类的数据，因而数据仓库管理成为一大难题。10年或20年前，数据可能每周或每月复制到数据仓库系统中；而如今，数据仓库的更新要频繁得多，有的甚至实时更新。

ETL

将数据从一个数据库（比如支持银行应用事务处理系统的数据库）转移到另一个数据库（比如用于业务分析的数据仓库系统）时，就要用到提取、转换和加载（ETL）软件。数据从一个数据库传送到另一个数据库时，常常需要对数据进行重新格式化和清理 *** 作。

由于数据量急剧增长，数据处理速度大大加快，对ETL工具的性能要求也大大提高了。

Flume

Flume是属于Apache Hadoop大家族（其他技术包括HBase、Hive、Oozie、Pig和Whirr）的一项技术，这种框架用于为Hadoop填充数据。该技术使用散布于应用服务器、Web服务器、移动设备及其他系统上的软件代理，收集数据，并将数据传送到Hadoop系统。

比如说，公司可以使用在Web服务器上运行的Apache Flume，收集来自推特帖子的数据，以便分析。

地理空间分析

推动大数据潮流的一个趋势是，由如今的IT系统生成和收集的地理空间数据越来越多。常言道，一幅的信息量抵得上1000个单词；所以难怪越来越多的地图、图表、照片及其他基于地理位置的内容是导致如今大数据呈爆炸式增长的主要动因。

地理空间分析是一种特殊形式的数据可视化（参阅下面的"可视化"条目），在地理地图上覆盖数据，以帮助用户更清楚地理解大数据分析的结果。

Hadoop

Hadoop是一种开源平台，用于开发分布式、数据密集型的应用程序。它由Apache软件基金会控制。

Hadoop的发明者是雅虎公司的开发者道格o卡廷（Doug Cutting），他在谷歌实验室的MapReduce概念这个基础上开发出了Hadoop，以他儿子的玩具象命名。

另外，HBase是一种非关系数据库，它是作为Hadoop项目的一部分开发而成的。Hadoop分布式文件系统（HDFS）是Hadoop的一个关键组成部分。Hive则是建立在Hadoop基础上的数据仓库系统。

内存中数据库

计算机在处理事务或执行查询时，一般从磁盘驱动器获取数据。但是当IT系统处理大数据时，这个过程可能实在太慢。

内存中数据库系统利用计算机的主内存来存储经常使用的数据，因而大大缩短了处理时间。内存中数据库产品包括SAP HANA和甲骨文Times Ten内存中数据库。

Java

Java是一种编程语言，由现隶属甲骨文公司的Sun开发，于1995年发布。Hadoop和其他许多大数据技术都是使用Java开发而成的，它仍是大数据领域一种主要的开发技术。

Kafka

Kafka是一种高吞吐量的分布式消息传送系统，最初是在LinkedIn开发而成，用于管理该服务网站的活动流（关于网站使用情况的数据）和 *** 作数据处理流水线（关于服务器组件的性能）。

Kafka在处理大量流式数据时很有效，而流式数据是许多大数据计算环境的一个关键问题。由推特开发的Storm是另一种大行其道的流处理技术。

Apache软件基金会已将Kafka列为一个开源项目。所以，别以为这是有缺陷的软件。

延迟时间

延迟时间是指数据从一个点传送到另一个点过程中的延迟，或者是某个系统（如应用程序）响应另一个系统的延迟数量。

虽然延迟时间不是什么新术语，但是随着数据量不断增长，IT系统竭力跟上步伐，如今你更常听到这个术语。简单地说，"低延迟"是好事，"高延迟"是坏事。

映射/化简

映射/化简（Map/Reduce）这种方法是指把一个复杂的问题分解成多个较小的部分，然后将它们分发到多台计算机上，最后把它们重新组装成一个答案。

谷歌的搜索系统用到了映射/化简概念，这家公司有一个品牌名为MapReduce的框架。

谷歌在2004年发布的一份白皮书描述了它使用映射/化简的情况。Hadoop之父道格o卡廷充分认识到了其潜力，开发出了同样借用映射/化简概念的第一个版本的Hadoop。

NoSQL数据库

大多数主流的数据库（如甲骨文数据库和微软SQL Server）基于关系型体系结构，使用结构化查询语言（SQL）用于开发和数据管理。

但是名为"NoSQL"（有些人现在称NoSQL表示"不是只有SQL"）的新一代数据库系统基于支持者们认为更适合处理大数据的体系结构。

一些NoSQL数据库是为提高可扩展性和灵活性设计的，另一些NoSQL数据库在处理文档及其他非结构化数据方面比较有效。典型的NoSQL数据库包括Hadoop/HBase、Cassandra、MongoDB和CouchDB，而甲骨文等一些知名开发商已推出了各自的NoSQL产品。

Oozie

Apache Oozie是一种开源工作流引擎，用于帮助管理面向Hadoop的处理工作。使用Oozie，一系列工作可以用多种语言（如Pig和MapReduce）来加以定义，然后彼此关联起来。比如说，一旦从 *** 作应用程序收集数据的作业已完成，程序员就可以启动数据分析查询任务。

Pig

Pig是Apache软件基金会的另一个项目，这个平台用于分析庞大的数据集。就其本质而言，Pig是一种编程语言，可用于开发在Hadoop上运行的并行计算查询。

定量数据分析

定量数据分析是指使用复杂的数学或统计模型，解释金融和商业行为，或者甚至预测未来的行为。

由于如今收集的数据量急剧增加，定量数据分析已变得更加复杂。但是如果公司知道如何利用海量数据，获得更好的可视性，深入了解公司业务，并且洞察市场发展趋势，那么更多的数据也有望在数据分析方面带来更多的机会。

一个问题是，拥有这种分析技能的人才严重匮乏。知名咨询公司麦肯锡表示，光美国就需要150万名拥有大数据分析技能的分析员和管理员。

关系数据库

关系数据库管理系统（RDBM）是如今使用最广泛的一种数据库，包括IBM的DB2、微软的SQL Server和甲骨文数据库。从银行应用系统、零售店的销售点系统到库存管理应用软件，大多数的企业事务处理系统都在RDBM上运行。

但有些人认为，关系数据库可能跟不上如今数据量和种类都呈爆炸式增长的形势。比如说，RDBM当初在设计时着眼于处理字母数字数据，处理非结构化数据时不是同样有效。

分片

随着数据库变得越来越庞大，处理起来也变得越来越困难。分片（sharding）是一种数据库分区技术，把数据库分成了更小、更容易管理的部分。具体来说，数据库被横向分区，以便单独管理数据库表中的不同行。

分片方法让庞大数据库的片段可以分布在多台服务器上，从而提高数据库的整体运行速度和性能。

另外，Sqoop是一种开源工具，用于将来自非Hadoop来源（如关系数据库）的数据转移到Hadoop环境。

文本分析

导致大数据问题的因素之一是，从推特和Facebook等社交媒体网站、外部新闻源，甚至公司内部收集而来以便分析的文本数量越来越多。由于文本是非结构化数据（不像通常存储在关系数据库中的结构化数据），主流的业务分析工具面对文本时常常束手无策。

文本分析采用了一系列方法（关键字搜索、统计分析法和语言研究法等），从基于文本的数据中获得洞察力。

非结构化数据

就在不久前，大部分数据还是结构化数据，这种字母数字信息（如来自销售交易的财务数据）很容易存储在关系数据库中，并由商业智能工具来分析。

但是如今共计27泽字节的存储数据中很大一部分是非结构化数据，比如基于文本的文档、推特消息、发布在Flickr上的照片、发布在YouTube上的视频，等等。（颇有意思的是，每分钟有长达35个小时的视频内容上传到YouTube。）处理、存储和分析所有这些凌乱的非结构化数据常常是如今的IT系统面临的难题。

可视化

随着数据量的增长，人们使用静态的图表和图形来理解数据越来越困难了。这就导致开发新一代的数据可视化和分析工具，能够以新的方式呈现数据，从而帮助人们理解海量信息。

这些工具包括：标以色码的热图，三维图形，显示一段时间内变化的动画可视化，以及在地理地图上覆盖数据的地理空间呈现。今天的先进数据可视化工具还具有更强的互动性，比如允许用户放大某个数据子集，进行更仔细的检查。

Whirr

Apache Whirr是一组Java类库，用于运行大数据云服务。更确切地说，它可以加快在亚马逊d性计算云（EC2）和Rackspace等虚拟基础设施上开发Hadoop集群的过程。

XML

可扩展标记语言（XML）用来传输和存储数据（别与HTML混为一谈，后者用来显示数据）。借助XML，程序员们就可以创建通用的数据格式，并通过互联网共享信息和格式。

由于XML文档可能非常庞大、复杂，它们往往被认为导致IT部门面临大数据挑战。

尧字节

尧字节（yottabyte）是一种数据存储度量指标，相当于1000泽字节。据知名调研机构IDC公司估计，今年全球存储的数据总量预计将达到27泽字节，比2011年增长48%。所以，我们离达到尧字节这个大关还有很长一段路，不过从目前大数据的增长速度来看，那一天的到来可能比我们想象的要快。

顺便说一下，1泽字节相当于1021字节的数据。它相当于1000艾字节（EB）、100万拍字节（PB）和10亿太字节（TB）。

ZooKeeper

ZooKeeper是由Apache软件基金会创建的一项服务，旨在帮助Hadoop用户管理和协调跨分布式网络的Hadoop节点。

ZooKeeper与HBase紧密集成，而HBase是与Hadoop有关的数据库。ZooKeeper是一项集中式服务，用于维护配置信息、命名服务、分布式同步及其他群组服务。IT管理人员用它来实现可靠的消息传递机制、同步流程执行及实施冗余服务。

下面是总结的某场景下的替换规则，仅供参考。

1时间类型：

DATE => TIMESTAMP

2数字类型：

NUMBER( => NUMERIC(

NUMBER => NUMERIC(38,0)

INTEGER => NUMERIC(38,0)

3字符类型：

VARCHAR2( => VARCHAR(

NVARCHAR2( => VARCHAR(

CHAR( => VARCHAR(

4大字段类型：

LONG => VARCHAR(2000)

CLOB => VARCHAR(2000)

BLOB => VARCHAR(2000)

以上就是关于大数据时代数据管理方式研究全部的内容，包括:大数据时代数据管理方式研究、如何看待国产数据库SequoiaDB开源、大数据热门词汇汇总等相关内容解答，如果想了解更多相关内容，可以关注我们，你们的支持是我们更新的动力！

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/sjk/9464883.html

大数据时代数据管理方式研究

发表评论

评论列表（0条）