如何加速Oracle大批量数据处理?

如何加速Oracle大批量数据处理?,第1张

一、 提高DML *** 作的办法:\x0d\x0a简单说来:\x0d\x0a1、暂停索引,更新后恢复.避免在更新的过程中涉及到索引的重建.\x0d\x0a2、批量更新,每更新一些记录后及时进行提交动作.避免大量占用回滚段和或临时表空间.\x0d\x0a3、创建一临时的大的表空间用来应对这些更新动作.\x0d\x0a\x0d\x0a4、批量更新,每更新一些记录后及时进行提交动作.避免大量占用回滚段和或临时表空间.\x0d\x0a\x0d\x0a5、创建一临时的大的表空间用来应对这些更新动作.\x0d\x0a\x0d\x0a6、加大排序缓冲区\x0d\x0aalter session set sort_area_size=100000000\x0d\x0ainsert into tableb select * from tablea\x0d\x0acommit\x0d\x0a\x0d\x0a如果UPDATE的是索引字段,就会涉及到索引的重建,暂停索引不会提高多少的速度,反而有可能降低UPDATE速度,\x0d\x0a因为在更新是索引可以提高数据的查询速度,重建索引引起的速度降低影响不大。\x0d\x0a\x0d\x0aORACLE优化修改参数最多也只能把性能提高15%,大部分都是SQL语句的优化!\x0d\x0a\x0d\x0aupdate总体来说比insert要慢 :\x0d\x0a几点建议: \x0d\x0a 1、如果更新的数据量接近整个表,就不应该使用index而应该采用全表扫描 \x0d\x0a 2、减少不必要的index,因为update表通常需要update index \x0d\x0a 3、如果你的服务器有多个cpu,采用parellel hint,可以大幅度的提高效率\x0d\x0a 另外,建表的参数非常重要,对于更新非常频繁的表,建议加大PCTFREE的值,以保证数据块中有足够的空间用于UPDATE, 从而降低CHAINED_ROWS。 \x0d\x0a\x0d\x0a二、各种批量DML *** 作:\x0d\x0a(1)、oracle批量拷贝:\x0d\x0aset arraysize 20\x0d\x0aset copycommit 5000\x0d\x0acopy from username/password@oraclename append table_name1\x0d\x0ausing select * from table_name2\x0d\x0a (2)、常规插入方式:\x0d\x0a insert into t1 select * from t\x0d\x0a 为了提高速度可以使用下面方法,来减少插入过程中产生的日志:\x0d\x0a alter table t1 nologging\x0d\x0ainsert into t1 select * from t\x0d\x0acommit\x0d\x0a (3)、CTAS方式:\x0d\x0a create table t1\x0d\x0aas\x0d\x0aselect * from t\x0d\x0a为了提高速度可以使用下面方法,来减少插入过程中产生的日志,并且可以制定并行度:\x0d\x0acreate table t1 nologging parallel(degree 2) as select * from t\x0d\x0a (4)、Direct-Path插入:\x0d\x0a insert /*+append*/ into t1 select * from t\x0d\x0a commit\x0d\x0a 为了提高速度可以使用下面方法,来减少插入过程中产生的日志:\x0d\x0a alter table t1 nologging\x0d\x0a insert /*+append*/ into t1 select * from t\x0d\x0a \x0d\x0a Direct-Path插入特点:\x0d\x0a1、 append只在insert ? select ?中起作用,像insert /*+ append */ into t values(?)这类的语句是不起作用的。在update、delete *** 作中,append也不起作用。\x0d\x0a2、 Direct-Path会使数据库不记录直接路径导入的数据的重做日志,会对恢复带来麻烦。\x0d\x0a3、 Direct-Path直接在表段的高水位线以上的空白数据块中写数据,不会重用高水位线以下的空间,会对空间的使用造成一定的浪费,对查询的性能也会造成一定的影响。而常规插入会优先考虑使用高水位线之下有空闲空间存在的数据块。因此理论上Direct-Path插入会比常规插入速度更快,因为Direct-Path直接使用新数据块,而常规插入要遍历freelist获取可用空闲数据块,如果同 nologging 配合,这种速度优势会更加明显。\x0d\x0a4、 以append方式插入记录后,要执行commit,才能对表进行查询。否则会出现错误:ORA-12838: 无法在并行模式下修改之后读/修改对象。\x0d\x0a5、 用append导入数据后,如果没有提交或者回滚,在其他会话中任何对该表的DML都会被阻塞(不会报错),但对该表的查询可以正常执行。\x0d\x0a6、 在归档模式下,要把表设置为nologging,然后以append方式批量添加记录,才会显著减少redo数量。在非归档模式下,不必设置表的 nologging属性,即可减少redo数量。如果表上有索引,则append方式批量添加记录,不会减少索引上产生的redo数量,索引上的redo 数量可能比表的redo数量还要大。\x0d\x0a7、 数据直接插入数据文件,绕过buffer cache并且忽略了引用完整性约束。\x0d\x0a8、 不管表是否在nologging 下,只要是 direct insert,就不会对数据内容生成undo。\x0d\x0a9、 Oracle在Direct-Path INSERT *** 作末尾,对具有索引的表执行索引维护,这样就避免了在drop掉索引后,再rebuild。\x0d\x0a10、 Direct-Path INSERT比常规的插入需要更多的空间。因为它将数据插入在高水位之上。并行插入非分区表需要更多的空间,因为它需要为每一个并行线程创建临时段。\x0d\x0a11、 在插入期间,数据库在表上获得排他锁,用户不能在表上执行并行插入、更新或者删除 *** 作,并行的索引创建和build也不被允许。但却可以并行查询,但查询返回的是插入之前的结果集。\x0d\x0a (5)、并行DML:\x0d\x0a 如果你的服务器有多个cpu,采用parellel hint,可以大幅度的提高效率\x0d\x0a ALTER SESSION ENABLE PARALLEL DML\x0d\x0a\x0d\x0a INSERT /*+ PARALLEL(tableA, 2) */INTO tableA \x0d\x0a SELECT * FROM tableB\x0d\x0a\x0d\x0a 为了提高速度可以使用下面方法,来减少插入过程中产生的日志:\x0d\x0a\x0d\x0a INSERT /*+ PARALLEL(tableA, 2) */INTO tableA NOLOGGING\x0d\x0a SELECT * FROM tableB\x0d\x0a\x0d\x0aoracle默认并不会打开PDML,对DML语句必须手工启用。即需要执行\x0d\x0aalter table enable parallel dml命令。\x0d\x0a \x0d\x0a并行DML特点:\x0d\x0a1、在并行DML模式中,默认的就是DIRECT-PATH插入,为了运行并行DML模式,必须满足以下条件:\x0d\x0aa、必须是Oracle企业版;\x0d\x0ab、必须在session中使并行DML生效,执行以下sql语句:\x0d\x0aALTER SESSION { ENABLE | FORCE } PARALLEL DML\x0d\x0ac、必须指定table的并行属性,在创建的时候或者其他时候,或者在insert *** 作时使用“PARALLEL”提示。\x0d\x0ad、为了使Direct-Path Insert模式失效,在INSERT语句中指定“NOAPPEND”提示,覆盖并行DML模式。\x0d\x0a2、并行Direct-Path INSERT到分区表:\x0d\x0a 类似于serial Direct-Path INSERT,每个并行 *** 作分配给一个或者多个分区,每个并行 *** 作插入数据到各自的分区段的高水位标志之上,commit之后,用户就能看到更新的数据。\x0d\x0a3、并行Direct-Path INSERT到非分区表:\x0d\x0a每个并行执行分配一个新的临时段,并插入数据到临时段。当commit运行后,并行执行协调者合并新的临时段到主表段,用户就能看到更新的数据。\x0d\x0a4、Direct-Path INSERT可以使用Log或者不使用Log。\x0d\x0a5、另外不得不说的是,并行不是一个可扩展的特性,只有在数据仓库或作为DBA等少数人的工具在批量数据 *** 作时利于充分利用资源,而在OLTP环境下使用并行需要非常谨慎。事实上PDML还是有比较多的限制的,例如不支持触发器,引用约束,高级复制和分布式事务等特性,同时也会带来额外的空间占用,PDDL同 样是如此。

逐条数据插入INSERT

数据导入的最简单方法就是编写 INSERT 语句,将数据逐条插入数据库。这种方法只适合导入少量数据,如 SQL*Plus 脚本创建某个表的种子数据。该方法的最大缺点就是导入速度缓慢,占用了大量的 CPU 处理时间,不适合大批量数据的导入;而其主要优点就是导入构思简单又有修改完善的d性,不需要多做其它的准备就可以使用。如果你有很多时间没法打发,又想折磨一下数据库和 CPU,那这种方法正适合你。

为了与其它方法做比较,现将十万条记录通过此方法导入到 CALLS 表中,总共消耗 172 秒,其中导入进程占用 CPU 时间为 52 秒。

逐条数据插入 INSERT,表暂无索引

为什么上一种方法占用了较多的 CPU 处理时间,关键是 CALLS 表中已创建了索引,当一条数据插入到表中时,Oracle 需要判别新数据与老数据在索引方面是否有冲突,同时要更新表中的所有索引,重复更新索引会消耗一定的时间。因此提高导入速度的好办法就是在创建表时先不创建索引或者在导入数据之前删除所有索引,在外部文件数据逐条插入到表中后再统一创建表的索引。这样导入速度会提高,同时创建的索引也很紧凑而有效,这一原则同样适用于位图索引(Bitmap Index)。对于主要的和唯一的关键约束(key constraints),可以使之先暂时失效(disabling)或者删除约束来获得同样的效果,当然这些做法会对已经存在的表的外键约束产生相关的影响,在删除前需要通盘斟酌。

需要说明的是,这种方法在表中已存在很多数据的情况下不太合适。例如表中已有九千万条数据,而此时需要追加插入一千万条数据,实际导入数据节省的时间将会被重新创建一亿条数据的索引所消耗殆尽,这是我们不希望得到的结果。但是,如果要导入数据的表是空的或导入的数据量比已有的数据量要大得多,那么导入数据节省的时间将会少量用于重新创建索引,这时该方法才可以考虑使用。 加快索引创建是另一个需要考虑的问题。为了减少索引创建中排序的工作时间,可以在当前会话中增加 SORT_AREA_SIZE 参数的大小,该参数允许当前会话在内存的索引创建过程中执行更多的排序 *** 作。同样还可以使用 NOLOGGING 关键字来减少因创建索引而生成的 REDO 日志量,NOLOGGING 关键字会对数据库的恢复和 Standby 备用数据库产生明显的影响,所以在使用之前要仔细斟酌,到底是速度优先还是稳定优先。

运用这种方法,先删除 CALLS 表的主键和不唯一的索引,然后逐条导入数据,完成后重新创建索引( 表在导入数据前是空的)。该方法总共消耗 130 秒,包括重建索引的时间,其中导入进程占用 CPU 时间为 35秒。

这种方法的优点是可以加快导入的速度并使索引更加紧凑有效;缺点是缺乏通用性,当你对表增加新的复杂的模式元素(索引、外键等)时你需要添加代码、修改导入执行程序。另外针对 7*24 在线要求的数据库在线导入 *** 作时,删除表的索引会对在线用户的查询有很大的性能影响,同时也要考虑,主要或唯一的关键约束条件的删除或失效可能会影响到引用它们的外键的使用。

批量插入,表暂无索引

在Oracle V6 中 OCI 编程接口加入了数组接口特性。数组 *** 作允许导入程序读取外部文件数据并解析后,向数据库提交SQL语句,批量插入 SQL 语句检索出的数据。Oracle 仅需要执行一次 SQL 语句,然后在内存中批量解析提供的数据。批量导入 *** 作比逐行插入重复 *** 作更有效率,这是因为只需一次解析 SQL 语句,一些数据绑订 *** 作以及程序与数据库之间来回的 *** 作都显著减少,而且数据库对每一条数据的 *** 作都是重复可知的,这给数据库提供了优化执行的可能。其优点是数据导入的总体时间明显减少,特别是进程占用 CPU 的时间。

需要提醒的是,通过 OCI 接口确实可以执行数据批量导入 *** 作,但是许多工具和脚本语言却不支持使用此功能。如果要使用该方法,需要研究你所使用的开发工具是否支持 OCI 批量 *** 作功能。导入程序需要进行复杂的编码并可能存在错误的风险,缺乏一定的d性。

运用上述方法,程序将外部数据提取到内存中的数组里,并执行批量插入 *** 作(100行/次),保留了表的删除/重建索引 *** 作,总的导入时间下降到 14 秒,而进程占用 CPU 的时间下降到7秒,可见实际导入数据所花费的时间显著下降了 95%。

1、数据库中创建课程信息表 tb_courses,包含课程编号 course_id、课程名称 course_name、课程学分 course_grade 和课程备注 course_info,输入的 SQL 语句和执行结果如下所示。

2、查看表里的数据还是空的。

3、在 tb_courses 表中插入一条新记录,course_id 值为 1,course_name 值为“Network”,course_grade 值为 3,info 值为“Computer Network”。

4、可以看到插入记录成功。在插入数据时,指定了 tb_courses 表的所有字段,因此将为每一个字段插入新的值。

5、在 tb_courses 表中插入一条新记录,course_id 值为 2,course_name 值为“Database”,course_grade 值为 3,info值为“MySQL”。输入的 SQL 语句和执行结果如下所示。

6、最后查看表数据,就完成了。


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/sjk/6787411.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-03-28
下一篇 2023-03-28

发表评论

登录后才能评论

评论列表(0条)

保存