1 列的可以动态增加,并且列为空就不存储数据,节省存储空间.
2 Hbase自动切分数据,使得数据存储自动具有水平scalability.
3 Hbase可以提供高并发读写 *** 作的支持
Hbase的缺点:
1 不能支持条件查询,只支持按照Row key来查询.
2 暂时不能支持Master server的故障切换,当Master宕机后,整个存储系统就会挂掉.
四.补充
1.数据类型,HBase只有简单的字符类型,所有的类型都是交由用户自己处理,它只保存字符串。而关系数据库有丰富的类型和存储方式。
2.数据 *** 作:HBase只有很简单的插入、查询、删除、清空等 *** 作,表和表之间是分离的,没有复杂的表和表之间的关系,而传统数据库通常有各式各样的函数和连接 *** 作。
3.存储模式:HBase是基于列存储的,每个列族都由几个文件保存,不同的列族的文件时分离的。而传统的关系型数据库是基于表格结构和行模式保存的
4.数据维护,HBase的更新 *** 作不应该叫更新,它实际上是插入了新的数据,而传统数据库是替换修改
5.可伸缩性,Hbase这类分布式数据库就是为了这个目的而开发出来的,所以它能够轻松增加或减少硬件的数量,并且对错误的兼容性比较高。而传统数据库通常需要增加中间层才能实现类似的功能
0 引 言随着计算机应用的深入,大量数据存储在计算机中,信息的存储、管理、使用和维护显得越来越重要,而传统的数据库管理系统很难满足其要求。为了解决大数据量、异构数据集成以及访问数据的响应速度问题,采用数据仓库技术,为最终用户处理所需的决策信息提供有效方法。
1 数据仓库
数据仓库是为管理人员进行决策提供支持的一种面向主题的、集成的、非易失的并随时间而变化的数据集合。数据仓库是一种作为决策支持系统和联机分析应用数据源的结构化数据环境。
从目前数据仓库的发展来讲,数据可以存放于不同类型的数据库中,数据仓库是将异种数据源在单个站点以统一的模型组织的存储,以支持管理决策。数据仓库技术包括数据清理、数据集成、联机分析处理(OLAP)和数据挖掘(DM)。OLAP是多维查询和分析工具,支持决策者围绕决策主题对数据进行多角度、多层次的分析。OLAP侧重于交互性、快速的响应速度及提供数据的多维视图,而DM则注重自动发现隐藏在数据中的模式和有用信息。OLAP的分析结果可以给DM提供分析信息,作为挖掘的依据;DM可以拓展OLAP分析的深度,可以发现OLAP所不能发现的更为复杂、细致的信息。OLAP是联机分析处理,DM是通过对数据库、数据仓库中的数据进行分析而获得知识的方法和技术,即通过建立模型来发现隐藏在组织机构数据库中的模式和关系。这两者结合起来可满足企业对数据整理和信息提取的要求,帮助企业高层做出决策。在欧美发达国家,以数据仓库为基础的在线分析处理和数据挖掘应用,首先在金融、保险、证券、电信等传统数据密集型行业取得成功。IBM、oracle、Teradata、Microsoft、Netezza和SAS等有实力的公司相继推出了数据仓库解决方案。
近几年开始流行“分布式数据仓库”,是在多个物理位置应用全局逻辑模型。数据被逻辑地分成多个域,但不同位置不会有重复的数据。这种分布式方法可以为不同的物理数据创建安全区域,或为全球不同时区的用户提供全天候的服务。此外,有由Kognitio发起数据仓库托管服务,即DBMS厂商为客户开发和运行数据仓库。这种最初出现在业务部门,业务部门购买托管服务,而不是使用企业内IT部门提供的数据仓库。
2 数据挖掘技术
数据挖掘(DataMining),又称数据库中的知识发现(KnoWledge Discoveryin Database,KDD),是指从大型数据库或数据仓库中提取隐含的、未知的、非平凡的及有潜在应用价值并最终可为用户理解的模式过程。它是数据库研究中的很有应用价值的新领域,是人工智能、机器学习、数理统计学和神经元网络等技术在特定的数据仓库领域中的应用。数据挖掘的核心模块技术历经数十年的发展,其中包括数理统计、人工智能、机器学习。从技术角度看,数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的实际数据中,提取隐含在其中的、人们所不知道的、但又是潜在有用的信息和知识的过程。从商业应用角度看,数据挖掘是崭新的商业信息处理技术,其主要特点是对商业数据库中的大量业务数据进行抽取、转化、分析和模式化处理,从中提取辅助商业决策的关键知识。
从技术角度讲,数据挖掘可应用于以下方面:
(1)关联规则发现是在给定的事物集合中发现满足一定条件的关联规则,简单来讲,就是挖掘出隐藏在数据间的相互关系,为业务主题提供指导。
(2)序列模式分析和关联规则发现相似,但其侧重点在于分析数据间的前后关系。模式是按时间有序的。序列模式发现是在与时间有关的事物数据库中发现满足用户给定的最小支持度域值的所有有序序列。
(3)分类分析与聚类分析,分类规则的挖掘实际上是根据分类模型从数据对象中发现共性,并把它们分成不同的类的过程。聚类时间是将d维空间的n个数据对象,划分到k个类中,使得一个类内的数据对象间的相似度高于其他类中数据对象。聚类分析可以发现没有类别标记的一组数据对象的特性,总结出一个类别的特征。
(4)自动趋势预测,数据挖掘能自动在大型数据库里面寻找潜在的预测信息。一个典型的利用数据挖掘进行预测的例子就是目标营销。数据挖掘工具可以根据过去邮件推销中的大量数据找出其中最有可能对将来的邮件推销作出反应的客户。
3 联机分析(OLAP)处理技术
联机分析(OLAP)是数据仓库实现为决策提供支持的重要工具,是共享多维信息,针对特定问题的联机数据访问和分析的快速软件技术。是使分析人员、管理人员或执行人员能够从多种角度对从原始数据中转化出来,能够真正为用户所理解,并真实反映企业维特性的信息进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术(OLAP委员会的定义)。OLAP的特性包括:①快速性:系统应能在5s内对用户的大部分分析要求做出反应;②可分析性:能处理与应用有关的任何逻辑分析和统计分析;⑨多维性:多维性是OLAP的关键属性。系统必须提供对数据的多维视图和分析,包括对层次维和多重层次维的完全支持;④信息性:系统应能及时获得信息,并能管理大容量信息。
OLAP的数据结构是多维,目前存在方式:①超立方结构(Hypercube),指用三维或更多的维数来描述一个对象,每个维彼此垂直。数据的测量值发生在维的交叉点上,数据空间的各部分都有相同的维属性(收缩超立方结构。这种结构的数据密度更大,数据的维数更少,并可加入额外的分析维);②多立方结构(Multicube),即将超立方结构变为子立方结构。面向某特定应用对维分割,它具有强灵活性,提高了数据(特别是稀疏数据)的分析效率。分析方法包括:切片、切块、旋转、钻取等。
OLAP也被称为共享的多维数据的快速分析FASMI,应用在数据密集型行业,如市场和销售分析、电子商务的分析、基于历史数据的营销、预算、财务报告与整合、管理报告、利益率、质量分析等。
4 小 结
采用数据仓库的数据挖掘及联机分析技术实现的决策支持系统,是弥补传统辅助决策系统能力不足的有效途径,具有重要的现实意义。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)