大数据时代数据管理方式研究_工具

大数据时代数据管理方式研究

1数据管理技术的回顾

数据管理技术主要经历了人工管理阶段、文件系统阶段和数据库系统阶段。随着数据应用领域的不断扩展，数据管理所处的环境也越来越复杂，目前广泛流行的数据库技术开始暴露出许多弱点，面临着许多新的挑战。

11 人工管理阶段

20 世纪 50 年代中期，计算机主要用于科学计算。当时没有磁盘等直接存取设备，只有纸带、卡片、磁带等外存，也没有 *** 作系统和管理数据的专门软件。该阶段管理的数据不保存、由应用程序管理数据、数据不共享和数据不具有独立性等特点。

12 文件系统阶段

20 世纪 50 年代后期到 60 年代中期，随着计算机硬件和软件的发展，磁盘、磁鼓等直接存取设备开始普及，这一时期的数据处理系统是把计算机中的数据组织成相互独立的被命名的数据文件，并可按文件的名字来进行访问，对文件中的记录进行存取的数据管理技术。数据可以长期保存在计算机外存上，可以对数据进行反复处理，并支持文件的查询、修改、插入和删除等 *** 作。其数据面向特定的应用程序，因此，数据共享性、独立性差，且冗余度大，管理和维护的代价也很大。

13数据库阶段

20 世纪 60 年代后期以来，计算机性能得到进一步提高，更重要的是出现了大容量磁盘，存储容量大大增加且价格下降。在此基础上，才有可能克服文件系统管理数据时的不足，而满足和解决实际应用中多个用户、多个应用程序共享数据的要求，从而使数据能为尽可能多的应用程序服务，这就出现了数据库这样的数据管理技术。数据库的特点是数据不再只针对某一个特定的应用，而是面向全组织，具有整体的结构性，共享性高，冗余度减小，具有一定的程序与数据之间的独立性，并且对数据进行统一的控制。

2大数据时代的数据管理技术

大数据（big data），或称巨量资料，指的是所涉及的资料量规模巨大到无法透过目前主流软件工具，在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。大数据有 3 个 V,一是大量化（Volume），数据量是持续快速增加的，从 TB级别，跃升到 PB 级别；二是多样化（Variety），数据类型多样化，结构化数据已被视为小菜一碟，、音频、视频等非结构化数据正以传统结构化数据增长的两倍速快速创建；三是快速化（Velocity），数据生成速度快，也就需要快速的处理能力，因此，产生了“1 秒定律”,就是说一般要在秒级时间范围内给出分析结果，时间太长就失去价值了，这个速度要求是大数据处理技术和传统的数据挖掘技术最大的区别。

21 关系型数据库（RDBMS）

20 世纪 70 年代初，IBM 工程师 Codd 发表了著名的论文“A Relational Model of Data for Large Shared DataBanks”,标志着关系数据库时代来临。关系数据库的理论基础是关系模型，是借助于集合代数等数学概念和方法来处理数据库中的数据，现实世界中的实体以及实体之间的联系非常容易用关系模型来表示。容易理解的模型、容易掌握的查询语言、高效的优化器、成熟的技术和产品，使得关系数据库占据了数据库市场的绝对的统治地位。随着互联网 web20 网站的兴起，半结构化和非结构化数据的大量涌现，传统的关系数据库在应付 web20 网站特别是超大规模和高并发的 SNS（全称 Social Networking Services,即社会性网络服务）类型的 web20 纯动态网站已经显得力不从心，暴露了很多难以克服的问题。

22 noSQL数据库

顺应时代发展的需要产生了 noSQL数据库技术，其主要特点是采用与关系模型不同的数据模型，当前热门的 noSQL数据库系统可以说是蓬勃发展、异军突起，很多公司都热情追捧之，如：由 Google 公司提出的 Big Table 和 MapReduce 以及 IBM 公司提出的 Lotus Notes 等。不管是那个公司的 noSQL数据库都围绕着大数据的 3 个 V,目的就是解决大数据的 3个 V 问题。因此，在设计 noSQL 时往往考虑以下几个原则，首先，采用横向扩展的方式，通过并行处理技术对数据进行划分并进行并行处理，以获得高速的读写速度；其次，解决数据类型从以结构化数据为主转向结构化、半结构化、非结构化三者的融合的问题；再次，放松对数据的 ACID 一致性约束，允许数据暂时出现不一致的情况，接受最终一致性；最后，对各个分区数据进行备份（一般是 3 份），应对节点失败的状况等。

对数据的应用可以分为分析型应用和 *** 作型应用，分析型应用主要是指对大量数据进行分类、聚集、汇总，最后获得数据量相对小的分析结果； *** 作型应用主要是指对数据进行增加、删除、修改和查询以及简单的汇总 *** 作，涉及的数据量一般比较少，事务执行时间一般比较短。目前数据库可分为关系数据库和 noSQL数据库，根据数据应用的要求，再结合目前数据库的种类，所以目前数据库管理方式主要有以下 4 类。

（1）面向 *** 作型的关系数据库技术。

首先，传统数据库厂商提供的基于行存储的关系数据库系统，如 DB2、Oracle、SQL Server 等，以其高度的一致性、精确性、系统可恢复性，在事务处理方面仍然是核心引擎。其次，面向实时计算的内存数据库系统，如 Hana、Timesten、Altibase 等通过把对数据并发控制、查询和恢复等 *** 作控制在内存内部进行，所以获得了非常高的性能，在很多特定领域如电信、证券、网管等得到普遍应用。另外，以 VoltDB、Clustrix 和NuoDB 为代表的 new SQL 宣称能够在保持 ACDI 特性的同时提高了事务处理性能 50 倍 ~60 倍。

（2）面向分析型的关系数据库技术。

首先，TeraData 是数据仓库领域的领头羊，Teradata 在整体上是按 Shared Nothing 架构体系进行组织的，定位就是大型数据仓库系统，支持较高的扩展性。其次，面向分析型应用，列存储数据库的研究形成了另一个重要的潮流。列存储数据库以其高效的压缩、更高的 I/O 效率等特点，在分析型应用领域获得了比行存储数据库高得多的性能。如：MonetDB 和 Vertica是一个典型的基于列存储技术的数据库系统。

（3）面向 *** 作型的 noSQL 技术。

有些 *** 作型应用不受 ACID 高度一致性约束，但对大数据处理需要处理的数据量非常大，对速度性能要求也非常高，这样就必须依靠大规模集群的并行处理能力来实现数据处理，弱一致性或最终一致性就可以了。这时， *** 作型 noSQL数据库的优点就可以发挥的淋漓尽致了。如，Hbase 一天就可以有超过 200 亿个到达硬盘的读写 *** 作，实现对大数据的处理。另外，noSQL数据库是一个数据模型灵活、支持多样数据类型，如对图数据建模、存储和分析，其性能、扩展性是关系数据库无法比拟的。

（4）面向分析型的 noSQL 技术。

面向分析型应用的 noSQL 技术主要依赖于Hadoop 分布式计算平台，Hadoop 是一个分布式计算平台，以 HDFS 和 Map Reduce 为用户提供系统底层细节透明的分布式基础架构。《Hadoop 经典实践染技巧》传统的数据库厂商 Microsoft,Oracle,SAS,IBM 等纷纷转向 Hadoop 的研究，如微软公司关闭 Dryad 系统，全力投入 Map Reduce 的研发，Oracle 在 2011 年下半年发布 Big Plan 战略计划，全面进军大数据处理领域，IBM 则早已捷足先登“,沃森（Watson）”计算机就是基于 Hadoop 技术开发的产物，同时 IBM 发布了 BigInsights 计划，基于 Hadoop,Netezza 和 SPSS（统计分析、数据挖掘软件）等技术和产品构建大数据分析处理的技术框架。同时也涌现出一批新公司来研究Hadoop 技术，如 Cloudera、MapRKarmashpere 等。

3数据管理方式的展望

通过以上分析，可以看出关系数据库的 ACID 强调数据一致性通常指关联数据之间的逻辑关系是否正确和完整，而对于很多互联网应用来说，对这一致性和隔离性的要求可以降低，而可用性的要求则更为明显，此时就可以采用 noSQL 的两种弱一致性的理论 BASE 和 CAP关系数据库和 noSQL数据库并不是想到对立的矛盾体，而是可以相互补充的，根据不同需求使用不同的技术，甚至二者可以共同存在，互不影响。最近几年，以 Spanner 为代表新型数据库的出现，给数据库领域注入新鲜血液，这就是融合了一致性和可用性的 newSQL,这种新型思维方式或许会是未来大数据处理方式的发展方向。

4 结束语

随着云计算、物联网等的发展，数据呈现爆炸式的增长，人们正被数据洪流所包围，大数据的时代已经到来。正确利用大数据给人们的生活带来了极大的便利，但与此同时也给传统的数据管理方式带来了极大的挑战。

1、内存数据库

在传统的数据库表中，由于磁盘的物理结构限制，表和索引的结构为B-Tree，这就使得该类索引在大并发的OLTP环境中显得非常乏力，虽然有很多办法来解决这类问题，比如说乐观并发控制，应用程序缓存，分布式等。但成本依然会略高。而随着这些年硬件的发展，现在服务器拥有几百G内存并不罕见，此外由于NUMA架构的成熟，也消除了多CPU访问内存的瓶颈问题，因此内存数据库得以出现。

内存的学名叫做RandomAccess Memory（RAM），因此如其特性一样，是随机访问的，因此对于内存，对应的数据结构也会是Hash-Index，而并发的隔离方式也对应的变成了MVCC，因此内存数据库可以在同样的硬件资源下，Handle更多的并发和请求，并且不会被锁阻塞，而SQLServer 2014集成了这个强大的功能，并不像Oracle的TimesTen需要额外付费，因此结合SSDAS Buffer Pool特性，所产生的效果将会非常值得期待。

SQLServer内存数据库的表现形式

在SQL Server的Hekaton引擎由两部分组成：内存优化表和本地编译存储过程。虽然Hekaton集成进了关系数据库引擎，但访问他们的方法对于客户端是透明的，这也意味着从客户端应用程序的角度来看，并不会知道Hekaton引擎的存在。如图1所示。

图1客户端APP不会感知Hekaton引擎的存在

首先内存优化表完全不会再存在锁的概念（虽然之前的版本有快照隔离这个乐观并发控制的概念，但快照隔离仍然需要在修改数据的时候加锁），此外内存优化表Hash-Index结构使得随机读写的速度大大提高，另外内存优化表可以设置为非持久内存优化表，从而也就没有了日志（适合于ETL中间结果 *** 作，但存在数据丢失的危险）

下面我们来看创建一个内存优化表：

首先，内存优化表需要数据库中存在一个特殊的文件组，以供存储内存优化表的CheckPoint文件，与传统的mdf或ldf文件不同的是，该文件组是一个目录而不是一个文件，因为CheckPoint文件只会附加，而不会修改，如图2所示。

图2内存优化表所需的特殊文件组

我们再来看一下内存优化文件组的样子，如图3所示。

图3内存优化文件组

有了文件组之后，接下来我们创建一个内存优化表，如图4所示。

图4创建内存优化表

目前SSMS还不支持UI界面创建内存优化表，因此只能通过T-SQL来创建内存优化表，如图5所示。

图5使用代码创建内存优化表

当表创建好之后，就可以查询数据了，值得注意的是，查询内存优化表需要snapshot隔离等级或者hint，这个隔离等级与快照隔离是不同的，如图6所示。

图6查询内存优化表需要加提示

此外，由创建表的语句可以看出，目前SQLServer 2014内存优化表的HashIndex只支持固定的Bucket大小，不支持动态分配Bucket大小，因此这里需要注意。

与内存数据库不兼容的特性

目前来说，数据库镜像和复制是无法与内存优化表兼容的，但AlwaysOn，日志传送，备份还原是完整支持。

性能测试

上面扯了一堆理论，大家可能都看郁闷了。下面我来做一个简单的性能测试，来比对使用内存优化表+本地编译存储过程与传统的B-Tree表进行对比，B-Tree表如图7所示，内存优化表+本地编译存储过程如图8所示。

图7传统的B-Tree表

图8内存优化表+本地编译存储过程

因此不难看出，内存优化表+本地编译存储过程有接近几十倍的性能提升。

网络适配器没有连接

1、首先使用VMVARE10搭建一个redhat65的虚拟机。2、在虚拟redhat65上安装ORACLE11G的数据库。3、使用oewizard导入测试数据，可以根据向导提示进行数据导入。4、使用swingbench进行压力测试。

Swingbench 的开发目的主要是用来展示RAC的负载和测试，但也可用于单实例环境。最新的23版本开始支持TimesTen内存数据库。

多了去了：

BEA的WebLogic、Tuxedo等

Sun的Java和MySQL等

TimesTen内存数据库

DEC的Rdb

Siebel 的CRM软件

PeopleSoft的ERP软件JD Edwards

Sleepycat的BerkeleyDB

内存数据库在传统的数据库表中，由于磁盘的物理结构限制，表和索引的结构为B-Tree，这就使得该类索引在大并发的OLTP环境中显得非常乏力，虽然有很多办法来解决这类问题，比如说乐观并发控制，应用程序缓存，分布式等。但成本依然会略高。而随着这些年硬件的发展，现在服务器拥有几百G内存并不罕见，此外由于NUMA架构的成熟，也消除了多CPU访问内存的瓶颈问题，因此内存数据库得以出现。内存的学名叫做Random Access Memory（RAM），因此如其特性一样，是随机访问的，因此对于内存，对应的数据结构也会是Hash-Index，而并发的隔离方式也对应的变成了MVCC，因此内存数据库可以在同样的硬件资源下，Handle更多的并发和请求，并且不会被锁阻塞，而SQL Server 2014集成了这个强大的功能，并不像Oracle的TimesTen需要额外付费，因此结合SSD AS Buffer Pool特性，所产生的效果将会非常值得期待。SQL Server内存数据库的表现形式在SQL Server的Hekaton引擎由两部分组成：内存优化表和本地编译存储过程。虽然Hekaton集成进了关系数据库引擎，但访问他们的方法对于客户端是透明的，这也意味着从客户端应用程序的角度来看，并不会知道Hekaton引擎的存在。如图1所示

以上就是关于大数据时代数据管理方式研究全部的内容，包括:大数据时代数据管理方式研究、揭秘SQL Server 2014有哪些新特性、swingbench无法准备数据等相关内容解答，如果想了解更多相关内容，可以关注我们，你们的支持是我们更新的动力！

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/sjk/10109614.html

大数据时代数据管理方式研究

发表评论

评论列表（0条）