sql,oracle都是关系型数据库,事务考虑的比较多,sql面对中小型企业和数据系统,傻瓜型,管理简单。oracle面向大型企业的数据引用,在金融行业应用广泛,其RAC架构可保证高可用性,但其架构为share disk架构。teradata是专门用于数据仓库的数据库,其基于Mpp架构(分布式并行架构),share nothing的架构,并且是一体机,超级贵。。当然还有db2,gp,mysql等数据库
需求:
将t2表的数据插入t1,当t2的a2值存在a1中时,使用t2的数据更新t1的数据,当a2的值不存在时,直接插入t1表
结果:可以使用Merge来实现此功能,测试如下:
CREATE TABLE dwsdatat1 (
a1 INTEGER,
b1 INTEGER,
c1 INTEGER);
CREATE TABLE dwsdatat2 (
a2 INTEGER,
b2 INTEGER,
c2 INTEGER);
select from dwsdatat1;
a1 b1 c1
1 1 1
2 2 2
3 3 3
select from dwsdatat2;
a2 b2 c2
1 2 2
2 3 3
4 5 5
MERGE INTO t1
USING t2
ON a1 = a2
WHEN MATCHED THEN
UPDATE SET b1 = b2,c1 = c2
WHEN NOT MATCHED THEN
INSERT (a2, b2, c2);
预期结果:
1 2 2
2 3 3
3 3 3
4 5 5
select from dwsdatat1;
a1 b1 c1
1 2 2
2 3 3
3 3 3
4 5 5
0 引 言
随着计算机应用的深入,大量数据存储在计算机中,信息的存储、管理、使用和维护显得越来越重要,而传统的数据库管理系统很难满足其要求。为了解决大数据量、异构数据集成以及访问数据的响应速度问题,采用数据仓库技术,为最终用户处理所需的决策信息提供有效方法。
1 数据仓库
数据仓库是为管理人员进行决策提供支持的一种面向主题的、集成的、非易失的并随时间而变化的数据集合。数据仓库是一种作为决策支持系统和联机分析应用数据源的结构化数据环境。
从目前数据仓库的发展来讲,数据可以存放于不同类型的数据库中,数据仓库是将异种数据源在单个站点以统一的模型组织的存储,以支持管理决策。数据仓库技术包括数据清理、数据集成、联机分析处理(OLAP)和数据挖掘(DM)。OLAP是多维查询和分析工具,支持决策者围绕决策主题对数据进行多角度、多层次的分析。OLAP侧重于交互性、快速的响应速度及提供数据的多维视图,而DM则注重自动发现隐藏在数据中的模式和有用信息。OLAP的分析结果可以给DM提供分析信息,作为挖掘的依据;DM可以拓展OLAP分析的深度,可以发现OLAP所不能发现的更为复杂、细致的信息。OLAP是联机分析处理,DM是通过对数据库、数据仓库中的数据进行分析而获得知识的方法和技术,即通过建立模型来发现隐藏在组织机构数据库中的模式和关系。这两者结合起来可满足企业对数据整理和信息提取的要求,帮助企业高层做出决策。在欧美发达国家,以数据仓库为基础的在线分析处理和数据挖掘应用,首先在金融、保险、证券、电信等传统数据密集型行业取得成功。IBM、oracle、Teradata、Microsoft、Netezza和SAS等有实力的公司相继推出了数据仓库解决方案。
近几年开始流行“分布式数据仓库”,是在多个物理位置应用全局逻辑模型。数据被逻辑地分成多个域,但不同位置不会有重复的数据。这种分布式方法可以为不同的物理数据创建安全区域,或为全球不同时区的用户提供全天候的服务。此外,有由Kognitio发起数据仓库托管服务,即DBMS厂商为客户开发和运行数据仓库。这种最初出现在业务部门,业务部门购买托管服务,而不是使用企业内IT部门提供的数据仓库。
2 数据挖掘技术
数据挖掘(DataMining),又称数据库中的知识发现(KnoWledge Discoveryin Database,KDD),是指从大型数据库或数据仓库中提取隐含的、未知的、非平凡的及有潜在应用价值并最终可为用户理解的模式过程。它是数据库研究中的很有应用价值的新领域,是人工智能、机器学习、数理统计学和神经元网络等技术在特定的数据仓库领域中的应用。数据挖掘的核心模块技术历经数十年的发展,其中包括数理统计、人工智能、机器学习。从技术角度看,数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的实际数据中,提取隐含在其中的、人们所不知道的、但又是潜在有用的信息和知识的过程。从商业应用角度看,数据挖掘是崭新的商业信息处理技术,其主要特点是对商业数据库中的大量业务数据进行抽取、转化、分析和模式化处理,从中提取辅助商业决策的关键知识。
从技术角度讲,数据挖掘可应用于以下方面:
(1)关联规则发现是在给定的事物集合中发现满足一定条件的关联规则,简单来讲,就是挖掘出隐藏在数据间的相互关系,为业务主题提供指导。
(2)序列模式分析和关联规则发现相似,但其侧重点在于分析数据间的前后关系。模式是按时间有序的。序列模式发现是在与时间有关的事物数据库中发现满足用户给定的最小支持度域值的所有有序序列。
(3)分类分析与聚类分析,分类规则的挖掘实际上是根据分类模型从数据对象中发现共性,并把它们分成不同的类的过程。聚类时间是将d维空间的n个数据对象,划分到k个类中,使得一个类内的数据对象间的相似度高于其他类中数据对象。聚类分析可以发现没有类别标记的一组数据对象的特性,总结出一个类别的特征。
(4)自动趋势预测,数据挖掘能自动在大型数据库里面寻找潜在的预测信息。一个典型的利用数据挖掘进行预测的例子就是目标营销。数据挖掘工具可以根据过去邮件推销中的大量数据找出其中最有可能对将来的邮件推销作出反应的客户。
3 联机分析(OLAP)处理技术
联机分析(OLAP)是数据仓库实现为决策提供支持的重要工具,是共享多维信息,针对特定问题的联机数据访问和分析的快速软件技术。是使分析人员、管理人员或执行人员能够从多种角度对从原始数据中转化出来,能够真正为用户所理解,并真实反映企业维特性的信息进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术(OLAP委员会的定义)。OLAP的特性包括:①快速性:系统应能在5s内对用户的大部分分析要求做出反应;②可分析性:能处理与应用有关的任何逻辑分析和统计分析;⑨多维性:多维性是OLAP的关键属性。系统必须提供对数据的多维视图和分析,包括对层次维和多重层次维的完全支持;④信息性:系统应能及时获得信息,并能管理大容量信息。
OLAP的数据结构是多维,目前存在方式:①超立方结构(Hypercube),指用三维或更多的维数来描述一个对象,每个维彼此垂直。数据的测量值发生在维的交叉点上,数据空间的各部分都有相同的维属性(收缩超立方结构。这种结构的数据密度更大,数据的维数更少,并可加入额外的分析维);②多立方结构(Multicube),即将超立方结构变为子立方结构。面向某特定应用对维分割,它具有强灵活性,提高了数据(特别是稀疏数据)的分析效率。分析方法包括:切片、切块、旋转、钻取等。
OLAP也被称为共享的多维数据的快速分析FASMI,应用在数据密集型行业,如市场和销售分析、电子商务的分析、基于历史数据的营销、预算、财务报告与整合、管理报告、利益率、质量分析等。
4 小 结
采用数据仓库的数据挖掘及联机分析技术实现的决策支持系统,是弥补传统辅助决策系统能力不足的有效途径,具有重要的现实意义。
NCR是一家上市美国公司的名字,Teradata是一款分布式数据库的名字,也曾经隶属于NCR公司,是从NCR中脱离出来的公司。基于Teradata的数据仓库在银行电信等行业应用很广泛,因为运用了分布式的多节点处理,海量数据处理速度很快。
基于企业级传统数据仓库应用的特点和要求,以及Hadoop技术的原理和特点,在使用Hadoop大数据平台实现传统数仓应用的过程中,需要关注和解决的关键问题有很多,本文主要列举在以下几个核心问题和解决思路:模型和SQL支持、海量数据的存储和高效计算、高并发查询、事务支持。
1、模型和SQL支持
模型方面,原量收系统模型设计原则是基于中国邮政整体企业管理和业务管理的规则和流程,同时考虑到系统的扩展。为了便于理解,整个模型先按照数据仓库典型方式划分为接口贴源层、逻辑层和汇总层。接口贴源层按照接口来源各个系统进行划分,系统模型和源系统模型基本保持一致;逻辑层和汇总层则按照主题域进行划分。接口层模型与源业务系统基本一致,结构简单,关联度相对较低,大部分源业务系统使用Oracle数据库。基础层模型结构相对复杂,关联度相对较高,系统使用Teradata数据库,汇总层模型结构相对简单,关联度低,系统使用Teradata数据库。
中国邮政大数据平台选用的底层产品全面支持Oracle数据表模型,支持大部分的Teradata模型。但在实践过程中,从Teradata数据库向Hadoop平台进行模型迁移时,还是有许多特殊语法需要进行修订,下图为Teradata语法与Hadoop平台语法的对比和转换关系举例:
表3-1 Teradata语法与Hadoop平台语法的对比和转换关系举例
SQL方面,系统的报表查询和ETL加工采用了大量的复杂SQL。
中国邮政大数据平台选用的底层产品支持99%的ANSI SQL2003语法,也支持Oracle PL/SQL,包括完整的数据类型、流程控制、Package、游标、异常处理以及动态SQL执行,可以支持迁移大部分的语法和脚本。但在实践过程中,从Teradata数据库向Hadoop平台进行SQL迁移时,还是有许多特殊语法需要进行针对性改进,下表为Hadoop平台不支持的语法和问题举例:
表3-2 Hadoop平台不支持的语法和问题举例
上述问题需要在开发过程中进行针对性的产品更新或代码更新
2、海量数据的存储和高效计算
中国邮政大数据平台汇集了中国邮政各大业务系统的历史业务数据,需要经过T+1的数据处理得到分析和计算结果进行展示。因此需要对海量数据进行存储,并提供高效的数据计算。
中国邮政大数据平台的底层数据产品通过内存计算技术、高效索引、执行计划优化和高度容错的技术,能够处理从TB的数据,并且在数据量级上都能提供比现有技术更快的性能。
底层平台基于Spark的分析引擎,从下往上包含三层架构,底层是分布式内存列式存储,可建在内存或者SSD上,中间层是Spark计算引擎层,最上层包括一个完整的SQL99和PL/SQL编译器、统计算法库和机器学习算法库。因此可以分析存储在HDFS,HBase或者Holodesk分布式缓存中的数据,可以处理的数据量从GB到数十TB,即使数据源或者中间结果的大小远大于内存,也可高效处理。
同时,采用跨内存/闪存等介质的分布式混合列式存储,可用于缓存数据供Spark高速访问。小内存+SSD+磁盘的新方案可以提供跟大内存+磁盘的传统方案性能接近的交互式SQL分析能力。由于内存的价格是SSD的10倍,因此可以采用SSD来替代内存作为缓存,一方面可以增大分布式内存数据库Holodesk存储容量,另一方面可以降低成本,同时性能没有明显损失。
同时解决开源Spark在稳定性、可管理性和功能不够丰富上的问题。平台对Spark进行了大量的改进,极大提高了Spark功能和性能的稳定性。能稳定的运行724小时,并能在TB级规模数据上高效进行各种稳定的统计分析。
3、高并发查询
中国邮政大数据平台经过数据处理和汇总,为中国邮政各大业务板块各及机构提供数据报表和数据查询,用户数超过5万,并发数超过2千。因此需要解决高并查询的性能和效率问题。
中国邮政大数据平台的底层数据产品支持使用大表交互等一系列复杂的SQL分析语法 *** 作。同时支持多种索引,包括全局索引(Global Index)、局部索引(Local Index)、高维索引(High-dimensionalIndex)以及全文索引(Full-textIndex)等;支持通过SQL进行复杂条件毫秒级高并发查询。
主要通过使用索引来加快数据的查询速度。包括三种索引:本地索引、全局索引、全文索引,支持索引的自动创建(在创建表时指定索引),也支持对已有表创建索引。索引的基本设计思想是对表中的需要经常作为查询条件的列建立一个映射到主数据的索引。查询时可以利用索引特性进行快速定位并返回查询结果。实验证明,通过使用索引,用户查询的响应速度可以达到原来的20~100倍。同时支持全局、局部、高维索引和高级过滤器,,满足在线存储和在线业务分析系统(OLAP)的低延时需求,实现高并发低延时的OLAP查询。
①你是指Teradata么。。。?Teradata天睿公司是全球最大且专注于数据库软件、企业级数据仓库、数据仓库专用平台和分析方案的供应商,致力于帮助企业实现灵活性。
②data[英][ˈdeitə] [美][ˈdetə, ˈdætə, ˈdɑtə]
n资料,材料;datum的复数;[计算机]数据,资料;从科学实验中提取的价值
TERADATA sql Assistant 有这个工具的话 有这个导出选项EXP 执行 select 数据FROM 表名 sample 10000000 这样一下子就出来了 剩下的就好办了吧
以上就是关于sql,oracle,teradata的区别和用途全部的内容,包括:sql,oracle,teradata的区别和用途、teradata 数据库的merge 语句、企业如何更好的搭建数据仓库等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)