数据导入的最简单方法就是编写 INSERT 语句,将数据逐条插入数据库。这种方法只适合导入少量数据,如 SQL*Plus 脚本创建某个表的种子数据。该方法的最大缺点就是导入速度缓慢,占用了大量的 CPU 处理时间,不适合大批量数据的导入;而其主要优点就是导入构思简单又有修改完善的d性,不需要多做其它的准备就可以使用。如果你有很多时间没法打发,又想折磨一下数据库和 CPU,那这种方法正适合你。
为了与其它方法做比较,现将十万条记录通过此方法导入到 CALLS 表中,总共消耗 172 秒,其中导入进程占用 CPU 时间为 52 秒。
逐条数据插入 INSERT,表暂无索引
为什么上一种方法占用了较多的 CPU 处理时间,关键是 CALLS 表中已创建了索引,当一条数据插入到表中时,Oracle 需要判别新数据与老数据在索引方面是否有冲突,同时要更新表中的所有索引,重复更新索引会消耗一定的时间。因此提高导入速度的好办法就是在创建表时先不创建索引或者在导入数据之前删除所有索引,在外部文件数据逐条插入到表中后再统一创建表的索引。这样导入速度会提高,同时创建的索引也很紧凑而有效,这一原则同样适用于位图索引(Bitmap Index)。对于主要的和唯一的关键约束(key constraints),可以使之先暂时失效(disabling)或者删除约束来获得同样的效果,当然这些做法会对已经存在的表的外键约束产生相关的影响,在删除前需要通盘斟酌。
需要说明的是,这种方法在表中已存在很多数据的情况下不太合适。例如表中已有九千万条数据,而此时需要追加插入一千万条数据,实际导入数据节省的时间将会被重新创建一亿条数据的索引所消耗殆尽,这是我们不希望得到的结果。但是,如果要导入数据的表是空的或导入的数据量比已有的数据量要大得多,那么导入数据节省的时间将会少量用于重新创建索引,这时该方法才可以考虑使用。 加快索引创建是另一个需要考虑的问题。为了减少索引创建中排序的工作时间,可以在当前会话中增加 SORT_AREA_SIZE 参数的大小,该参数允许当前会话在内存的索引创建过程中执行更多的排序 *** 作。同样还可以使用 NOLOGGING 关键字来减少因创建索引而生成的 REDO 日志量,NOLOGGING 关键字会对数据库的恢复和 Standby 备用数据库产生明显的影响,所以在使用之前要仔细斟酌,到底是速度优先还是稳定优先。
运用这种方法,先删除 CALLS 表的主键和不唯一的索引,然后逐条导入数据,完成后重新创建索引( 表在导入数据前是空的)。该方法总共消耗 130 秒,包括重建索引的时间,其中导入进程占用 CPU 时间为 35秒。
这种方法的优点是可以加快导入的速度并使索引更加紧凑有效;缺点是缺乏通用性,当你对表增加新的复杂的模式元素(索引、外键等)时你需要添加代码、修改导入执行程序。另外针对 7*24 在线要求的数据库在线导入 *** 作时,删除表的索引会对在线用户的查询有很大的性能影响,同时也要考虑,主要或唯一的关键约束条件的删除或失效可能会影响到引用它们的外键的使用。
批量插入,表暂无索引
在Oracle V6 中 OCI 编程接口加入了数组接口特性。数组 *** 作允许导入程序读取外部文件数据并解析后,向数据库提交SQL语句,批量插入 SQL 语句检索出的数据。Oracle 仅需要执行一次 SQL 语句,然后在内存中批量解析提供的数据。批量导入 *** 作比逐行插入重复 *** 作更有效率,这是因为只需一次解析 SQL 语句,一些数据绑订 *** 作以及程序与数据库之间来回的 *** 作都显著减少,而且数据库对每一条数据的 *** 作都是重复可知的,这给数据库提供了优化执行的可能。其优点是数据导入的总体时间明显减少,特别是进程占用 CPU 的时间。
需要提醒的是,通过 OCI 接口确实可以执行数据批量导入 *** 作,但是许多工具和脚本语言却不支持使用此功能。如果要使用该方法,需要研究你所使用的开发工具是否支持 OCI 批量 *** 作功能。导入程序需要进行复杂的编码并可能存在错误的风险,缺乏一定的d性。
运用上述方法,程序将外部数据提取到内存中的数组里,并执行批量插入 *** 作(100行/次),保留了表的删除/重建索引 *** 作,总的导入时间下降到 14 秒,而进程占用 CPU 的时间下降到7秒,可见实际导入数据所花费的时间显著下降了 95%。
个人看法是update快啊。oracle先删后插入,隐含的rowid什么的都变化了,而且还要重新分配空间什么的,事务数量也多了,总之和update的效果不一样,虽然你之后进行select的返回值一样。
mysql数据库单表插入速度每秒最高100000 rows没问题,在标准配置下。mysql的读写速度跟硬盘的速度,网卡的速度,写入行的数据量,数据在硬盘中的存放位置等等因素都有关系的。
要统计这个最好的是进行测试,然后得出一个平均值。没有人能够光通过配置得出这些数据的。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)