如果你正在负责一个基于SQL Server的项目 或者你刚刚接触SQL Server 你都有可能要面临一些数据库性能的问题 这篇文章会为你提供一些有用的指导(其中大多数也可以用于其它的DBMS)
在这里 我不打算介绍使用SQL Server的窍门 也不能提供一个包治百病的方案 我所做的是总结一些经验 关于如何形成一个好的设计 这些经验来自我过去几年中经受的教训 一直来 我看到许多同样的设计错误被一次又一次的重复
你了解你用的工具吗?
不要轻视这一点 这是我在这篇文章中讲述的最关键的一条 也许你也看到有很多的SQL Server程序员没有掌握全部的T SQL命令和SQL Server提供的那些有用的工具
什么?我要浪费一个月的时间来学习那些我永远也不会用到的SQL命令??? 你也许会这样说 对的 你不需要这样做 但是你应该用一个周末浏览所有的T SQL命令 在这里 你的任务是了解 将来 当你设计一个查询时 你会记起来 对了 这里有一个命令可以完全实现我需要的功能 于是 到MSDN查看这个命令的确切语法
不要使用游标
让我再重复一遍 不要使用游标 如果你想破坏整个系统的性能的话 它们倒是你最有效的首选办法 大多数的初学者都使用游标 而没有意识到它们对性能造成的影响 它们占用内存 还用它们那些不可思议的方式锁定表 另外 它们简直就像蜗牛 而最糟糕的是 它们可以使你的DBA所能做的一切性能优化等于没做 不知你是否知道每执行一次FETCH就等于执行一次SELECT命令?这意味着如果你的游标有 条记录 它将执行 次SELECT!如果你使用一组SELECT UPDATE或者DELETE来完成相应的工作 那将有效率的多
初学者一般认为使用游标是一种比较熟悉和舒适的编程方式 可很不幸 这会导致糟糕的性能 显然 SQL的总体目的是你要实现什么 而不是怎样实现
我曾经用T SQL重写了一个基于游标的存储过程 那个表只有 条记录 原来的存储过程用了 分钟才执行完毕 而新的存储过程只用了 秒钟 在这里 我想你应该可以看到一个不称职的程序员究竟在干了什么!!!
我们可以写一个小程序来取得和处理数据并且更新数据库 这样做有时会更有效 记住 对于循环 T SQL无能为力
我再重新提醒一下 使用游标没有好处 除了DBA的工作外 我从来没有看到过使用游标可以有效的完成任何工作
规范化你的数据表
为什么不规范化数据库?大概有两个借口 出于性能的考虑和纯粹因为懒惰 至于第二点 你迟早得为此付出代价 而关于性能的问题 你不需要优化根本就不慢的东西 我经常看到一些程序员 反规范化 数据库 他们的理由是 原来的设计太慢了 可结果却常常是他们让系统更慢了 DBMS被设计用来处理规范数据库的 因此 记住 按照规范化的要求设计数据库
不要使用SELECT
这点不太容易做到 我太了解了 因为我自己就经常这样干 可是 如果在SELECT中指定你所需要的列 那将会带来以下的好处
减少内存耗费和网络的带宽
你可以得到更安全的设计
给查询优化器机会从索引读取所有需要的列
了解你将要对数据进行的 *** 作
为你的数据库创建一个健壮的索引 那可是功德一件 可要做到这一点简直就是一门艺术 每当你为一个表添加一个索引 SELECT会更快了 可INSERT和DELETE却大大的变慢了 因为创建了维护索引需要许多额外的工作 显然 这里问题的关键是 你要对这张表进行什么样的 *** 作 这个问题不太好把握 特别是涉及DELETE和UPDATE时 因为这些语句经常在WHERE部分包含SELECT命令
不要给 性别 列创建索引
首先 我们必须了解索引是如何加速对表的访问的 你可以将索引理解为基于一定的标准上对表进行划分的一种方式 如果你给类似于 性别 这样的列创建了一个索引 你仅仅是将表划分为两部分 男和女 你在处理一个有 条记录的表 这样的划分有什么意义?记住 维护索引是比较费时的 当你设计索引时 请遵循这样的规则 根据列可能包含不同内容的数目从多到少排列 比如 姓名 省份 性别
使用事务
请使用事务 特别是当查询比较耗时 如果系统出现问题 这样做会救你一命的 一般有些经验的程序员都有体会 你经常会碰到一些不可预料的情况会导致存储过程崩溃
小心死锁
按照一定的次序来访问你的表 如果你先锁住表A 再锁住表B 那么在所有的存储过程中都要按照这个顺序来锁定它们 如果你(不经意的)某个存储过程中先锁定表B 再锁定表A 这可能就会导致一个死锁 如果锁定顺序没有被预先详细的设计好 死锁是不太容易被发现的
不要打开大的数据集
在CSDN技术论坛中 :) 一个经常被提出的问题是 我怎样才能迅速的将 条记录添加到ComboBox中?这是不对的 你不能也不需要这样做 很简单 你的用户要浏览 条记录才能找到需要的记录 他一定会诅咒你的 在这里 你需要的是一个更好的UI 你需要为你的用户显示不超过 或 条记录
不要使用服务器端游标
与服务器端游标比起来 客户端游标可以减少服务器和网络的系统开销 并且还减少锁定时间
使用参数查询
有时 我在CSDN技术论坛看到类似这样的问题 SELECT FROM a WHERE a id= A B 因为单引号查询发生异常 我该怎么办? 而普遍的回答是 用两个单引号代替单引号 这是错误的 这样治标不治本 因为你还会在其他一些字符上遇到这样的问题 更何况这样会导致严重的bug 除此以外 这样做还会使SQL Server的缓冲系统无法发挥应有的作用 使用参数查询 釜底抽薪 这些问题统统不存在了
在程序编码时使用大数据量的数据库
程序员在开发中使用的测试数据库一般数据量都不大 可经常的是最终用户的数据量都很大 我们通常的做法是不对的 原因很简单 现在硬盘不是很贵 可为什么性能问题却要等到已经无可挽回的时候才被注意呢?
不要使用INSERT导入大批的数据
请不要这样做 除非那是必须的 使用UTS或者BCP 这样你可以一举而兼得灵活性和速度
注意超时问题
查询数据库时 一般数据库的缺省都比较小 比如 秒或者 秒 而有些查询运行时间要比这长 特别是当数据库的数据量不断变大时
不要忽略同时修改同一记录的问题
有时候 两个用户会同时修改同一记录 这样 后一个修改者修改了前一个修改者的 *** 作 某些更新就会丢失 处理这种情况不是很难 创建一个timestamp字段 在写入前检查它 如果允许 就合并修改 如果存在冲突 提示用户
在细节表中插入纪录时 不要在主表执行SELECT MAX(ID)
这是一个普遍的错误 当两个用户在同一时间插入数据时 这会导致错误 你可以使用SCOPE_IDENTITY IDENT_CURRENT和@@IDENTITY 如果可能 不要使用@@IDENTITY 因为在有触发器的情况下 它会引起一些问题(详见这里的讨论)
避免将列设为NULLable
如果可能的话 你应该避免将列设为NULLable 系统会为NULLable列的每一行分配一个额外的字节 查询时会带来更多的系统开销 另外 将列设为NULLable使编码变得复杂 因为每一次访问这些列时都必须先进行检查
我并不是说NULLS是麻烦的根源 尽管有些人这样认为 我认为如果你的业务规则中允许 空数据 那么 将列设为NULLable有时会发挥很好的作用 但是 如果在类似下面的情况中使用NULLable 那简直就是自讨苦吃
CustomerName CustomerAddress CustomerEmail CustomerName CustomerAddress CustomerEmail CustomerName CustomerAddress CustomerEmail
如果出现这种情况 你需要规范化你的表了
尽量不要使用TEXT数据类型
除非你使用TEXT处理一个很大的数据 否则不要使用它 因为它不易于查询 速度慢 用的不好还会浪费大量的空间 一般的 VARCHAR可以更好的处理你的数据
尽量不要使用临时表
尽量不要使用临时表 除非你必须这样做 一般使用子查询可以代替临时表 使用临时表会带来系统开销 如果你是用 进行编程 它还会给你带来很大的麻烦 因为 使用数据库连接池而临时表却自始至终都存在 SQL Server提供了一些替代方案 比如Table数据类型
学会分析查询
SQL Server查询分析器是你的好伙伴 通过它你可以了解查询和索引是如何影响性能的
使用参照完整性
lishixinzhi/Article/program/SQLServer/201311/22158
ASP学习步骤 个对象 Request Response Session Server Applictaion 两个数据库组件 Adodb Recordset Adodb Connection Request From("表单名称") 得到From表单数据 Request QueryString("Url参数") 得到Url参数 index aspact=save Request QueryString("act")
一 request Request Cookies("Cookie") 得到Cookies Cookies 一般用于存储用户信息 用于验证 一般用于用户验证之类的 Session也有同样的类型 区别是Session是存在服务器上 Cookies是存在用户硬盘上 一般可以省略点方法 直接用Request("参数名") 他会依次用From QueryString Cookies去取值 Request 差不多就这些了
二 Response Response Write 向浏览器输出 Response Redirect 重转向 Response End 停止向浏览器输出 Response Cookies 向客户端写Cookies Response Cookies("CookieName") = "test" Responsp Cookies("CookieName") Domain="china " 这样写的话 在所有的China 的域名下用Request Cookies("CookieName")都能得到
三 Session Session("SessionName") = "" 把信息存储到Session里面 If Session("SessionName") <> "" Then 判断Session是否存在 一般用于验证 Session("SessionName") = "" 清空Session Session Abandon 清空所有Session Session TimeOut = 设置Session过期时间 单位为秒 Session是存在服务器上 Cookies是存在用户硬盘上 Session重启了进程池就没有了 Cookies我们就不能控制了 除非写个程序 强制清空
四 Server Server Mappath 把虚拟路径转为实际路径 如果你的程序在C盘 那么你用path = Server Mappath("/") 那么和path = "c:" 是一样的 基于根目录 Server CreateObject 这个注册组件的 比较常用 Server CreateObject("Adodb RecordSet") 注册一个数据库组件
五 Applictaion 是一个全局对象 他和Session是一样的 区别在于 Session是存储单个的用户信息 Application是存储全局信息 Application("Site") = ">
1.引言 数据库调优可以使数据库应用运行得更快,它需要综合考虑各种复杂的因素。将数据均 匀分布在磁盘上可以提高I/O 利用率,提高数据的读写性能;适当程度的非规范化可以改善 系统查询性能;建立索引和编写高效的SQL 语句能有效避免低性能 *** 作;通过锁的调优解 决并发控制方面的性能问题。 数据库调优技术可以在不同的数据库系统中使用,它不必纠缠于复杂的公式和规则,然 而它需要对程序的应用、数据库管理系统、查询处理、并发控制、 *** 作系统以及硬件有广泛 而深刻的理解。 2.计算机硬件调优 21 数据库对象的放置策略 利用数据库分区技术,均匀地把数据分布在系统的磁盘中,平衡I/O 访问,避免I/O 瓶颈: (1)访问分散到不同的磁盘,即使用户数据尽可能跨越多个设备,多个I/O 运转,避免 I/O 竞争,克服访问瓶颈;分别放置随机访问和连续访问数据。 (2)分离系统数据库I/O 和应用数据库I/O,把系统审计表和临时库表放在不忙的磁盘 上。 (3)把事务日志放在单独的磁盘上,减少磁盘I/O 开销,这还有利于在障碍后恢复,提 高了系统的安全性。 (4)把频繁访问的“活性”表放在不同的磁盘上;把频繁用的表、频繁做Join的表分别 放在单独的磁盘上,甚至把频繁访问的表的字段放在不同的磁盘上,把访问分散到不同的磁 盘上,避免I/O 争夺。 22 使用磁盘硬件优化数据库 RAID (独立磁盘冗余阵列)是由多个磁盘驱动器(一个阵列)组成的磁盘系统。通过将磁盘阵列当作一个磁盘来对待,基于硬件的RAID允许用户管理多个磁盘。使用基于硬件的 RAID与基于 *** 作系统的RAID相比较,基于硬件的RAID能够提供更佳的性能。如果使用基于 *** 作系统的RAID,那么它将占据其他系统需求的CPU周期;通过使用基于硬件的RAID, 用户在不关闭系统的情况下能够替换发生故障的驱动器。 SQL Server 一般使用RAID等级0、1 和5。 RAID 0 是传统的磁盘镜象,阵列中每一个磁盘都有一个或多个磁盘拷贝,它主要用来 提供最高级的可靠性,使RAID 0成倍增加了写 *** 作却可以并行处理多个读 *** 作,从而提高 了读 *** 作的性能。 RAID 1 是磁盘镜像或磁盘双工,能够为事务日志保证冗余性。 RAID 5带奇偶的磁盘条带化,即将数据信息和校验信息分散到阵列的所有磁盘中,它可以消除一个校验盘的瓶颈和单点失效问题,RAID 5 也会增加写 *** 作,也可以并行处理一个读 *** 作,还 可以成倍地提高读 *** 作的性能。 相比之下,RAID 5 增加的写 *** 作比RAID 0 增加的要少许多。在实际应用中,用户的读 *** 作要求远远多于写 *** 作请求,而磁盘执行写 *** 作的速度很快,以至于用户几乎感觉不到增加的时间,所以增加的写 *** 作负担不会带来什么问题。在性能较好的服务器中一般都会选择使用RAID 5 的磁盘阵列卡来实现,对于性能相对差一些的服务器也可利用纯软件的方式来实现RAID 5。 3.关系系统与应用程序调优 31 应用程序优化 从数据库设计者的角度来看,应用程序无非是实现对数据的增加、修改、删除、查询和体现数据的结构和关系。设计者在性能方面的考虑因素,总的出发点是:把数据库当作奢侈 的资源看待,在确保功能的同时,尽可能少地动用数据库资源。包括如下原则: (1)不访问或少访问数据库; (2)简化对数据库的访问; (3)使访问最优; (4)对前期及后续的开发、部署、调整提出要求,以协助实现性能目标。 另外,不要直接执行完整的SQL 语法,尽量通过存储过程来调用SQL Server。客户与服务器连接时,建立连接池,让连接尽量得以重用,以避免时间与资源的损耗。非到不得已, 不要使用游标结构,确实使用时,注意各种游标的特性。
如何优化 *** 作大数据量数据库
下面以关系数据库系统Informix为例,介绍改善用户查询计划的方法。
1.合理使用索引
索引是数据库中重要的数据结构,它的根本目的就是为了提高查询效率。现在大多数的数据库产品都采用IBM最先提出的ISAM索引结构。索引的使用要恰到好处,其使用原则如下:
●在经常进行连接,但是没有指定为外键的列上建立索引,而不经常连接的字段则由优化器自动生成索引。
●在频繁进行排序或分组(即进行group by或order by *** 作)的列上建立索引。
●在条件表达式中经常用到的不同值较多的列上建立检索,在不同值少的列上不要建立索引。比如在雇员表的“性别”列上只有“男”与“女”两个不同值,因此就无必要建立索引。如果建立索引不但不会提高查询效率,反而会严重降低更新速度。
●如果待排序的列有多个,可以在这些列上建立复合索引(pound index)。
●使用系统工具。如Informix数据库有一个tbcheck工具,可以在可疑的索引上进行检查。在一些数据库服务器上,索引可能失效或者因为频繁 *** 作而使得读取效率降低,如果一个使用索引的查询不明不白地慢下来,可以试着用tbcheck工具检查索引的完整性,必要时进行修复。另外,当数据库表更新大量数据后,删除并重建索引可以提高查询速度。
2.避免或简化排序
应当简化或避免对大型表进行重复的排序。当能够利用索引自动以适当的次序产生输出时,优化器就避免了排序的步骤。以下是一些影响因素:
●索引中不包括一个或几个待排序的列;
●group by或order by子句中列的次序与索引的次序不一样;
●排序的列来自不同的表。
为了避免不必要的排序,就要正确地增建索引,合理地合并数据库表(尽管有时可能影响表的规范化,但相对于效率的提高是值得的)。如果排序不可避免,那么应当试图简化它,如缩小排序的列的范围等。
3.消除对大型表行数据的顺序存取
在嵌套查询中,对表的顺序存取对查询效率可能产生致命的影响。比如采用顺序存取策略,一个嵌套3层的查询,如果每层都查询1000行,那么这个查询就要查询10亿行数据。避免这种情况的主要方法就是对连接的列进行索引。例如,两个表:学生表(学号、姓名、年龄……)和选课表(学号、课程号、成绩)。如果两个表要做连接,就要在“学号”这个连接字段上建立索引。
还可以使用并集来避免顺序存取。尽管在所有的检查列上都有索引,但某些形式的where子句强迫优化器使用顺序存取。下面的查询将强迫对orders表执行顺序 *** 作:
SELECT * FROM orders WHERE (customer_num=104 AND order_num>1001) OR order_num=1008
虽然在customer_num和order_num上建有索引,但是在上面的语句中优化器还是使用顺序存取路径扫描整个表。因为这个语句要检索的是分离的行的 ,所以应该改为如下语句:
SELECT * FROM orders WHERE customer_num=104 AND order_num>1001
UNION
SELECT * FROM orders WHERE order_num=1008
这样就能利用索引路径处理查询。
4.避免相关子查询
一个列的标签同时在主查询和where子句中的查询中出现,那么很可能当主查询中的列值改变之后,子查询必须重新查询一次。查询嵌套层次越多,效率越低,因此应当尽量避免子查询。如果子查询不可避免,那么要在子查询中过滤掉尽可能多的行。
5.避免困难的正规表达式
MATCHES和LIKE关键字支持通配符匹配,技术上叫正规表达式。但这种匹配特别耗费时间。例如:SELECT * FROM customer WHERE zipcode LIKE “98_ _ _”
即使在zipcode字段上建立了索引,在这种情况下也还是采用顺序扫描的方式。如果把语句改为SELECT * FROM customer WHERE zipcode >“98000”,在执行查询时就会利用索引来查询,显然会大大提高速度。
另外,还要避免非开始的子串。例如语句:SELECT * FROM customer WHERE zipcode[2,3]>“80”,在where子句中采用了非开始子串,因而这个语句也不会使用索引。
6.使用临时表加速查询
把表的一个子集进行排序并创建临时表,有时能加速查询。它有助于避免多重排序 *** 作,而且在其他方面还能简化优化器的工作。例如:
SELECT custname,rcvblesbalance,……other columns
FROM cust,rcvbles
WHERE custcustomer_id = rcvlbescustomer_id
AND rcvbllsbalance>0
AND custpostcode>“98000”
ORDER BY custname
如果这个查询要被执行多次而不止一次,可以把所有未付款的客户找出来放在一个临时文件中,并按客户的名字进行排序:
SELECT custname,rcvblesbalance,……other columns
FROM cust,rcvbles
WHERE custcustomer_id = rcvlbescustomer_id
AND rcvbllsbalance>0
ORDER BY custname
INTO TEMP cust_with_balance
然后以下面的方式在临时表中查询:
SELECT * FROM cust_with_balance
WHERE postcode>“98000”
临时表中的行要比主表中的行少,而且物理顺序就是所要求的顺序,减少了磁盘I/O,所以查询工作量可以得到大幅减少。
注意:临时表创建后不会反映主表的修改。在主表中数据频繁修改的情况下,注意不要丢失数据。
7.用排序来取代非顺序存取
非顺序磁盘存取是最慢的 *** 作,表现在磁盘存取臂的来回移动。SQL语句隐藏了这一情况,使得我们在写应用程序时很容易写出要求存取大量非顺序页的查询。
有些时候,用数据库的排序能力来替代非顺序的存取能改进查询。
实例分析
下面我们举一个制造公司的例子来说明如何进行查询优化。制造公司数据库中包括3个表,模式如下所示:
1.part表
零件号零件描述其他列
(part_num)(part_desc)(other column)
102,032Seageat 30G disk……
500,049Novel 10M neork card……
……
2.vendor表
厂商号厂商名其他列
(vendor _num)(vendor_name) (other column)
910,257Seageat Corp……
523,045IBM Corp……
……
3.parven表
零件号厂商号零件数量
(part_num)(vendor_num)(part_amount)
102,032910,2573,450,000
234,423321,0014,000,000
……
下面的查询将在这些表上定期运行,并产生关于所有零件数量的报表:
SELECT part_desc,vendor_name,part_amount
FROM part,vendor,parven
WHERE partpart_num=parvenpart_num
AND parvenvendor_num = vendorvendor_num
ORDER BY partpart_num
如果不建立索引,上述查询代码的开销将十分巨大。为此,我们在零件号和厂商号上建立索引。索引的建立避免了在嵌套中反复扫描。关于表与索引的统计信息如下:
表行尺寸行数量每页行数量数据页数量
(table)(row size)(Row count)(Rows/Pages)(Data Pages)
part15010,00025400
Vendor1501,000 2540
Parven13 15,000300 50
索引键尺寸每页键数量页面数量
(Indexes)(Key Size)(Keys/Page)(Leaf Pages)
part450020
Vendor45002
Parven825060
看起来是个相对简单的3表连接,但是其查询开销是很大的。通过查看系统表可以看到,在part_num上和vendor_num上有簇索引,因此索引是按照物理顺序存放的。parven表没有特定的存放次序。这些表的大小说明从缓冲页中非顺序存取的成功率很小。此语句的优化查询规划是:首先从part中顺序读取400页,然后再对parven表非顺序存取1万次,每次2页(一个索引页、一个数据页),总计2万个磁盘页,最后对vendor表非顺序存取15万次,合3万个磁盘页。可以看出在这个索引好的连接上花费的磁盘存取为504万次。
hibernate如何优化大数据量 *** 作?建议你直接用Jdbc好了,用batch,这样是最快的。
如何实现大数据量数据库的历史数据归档打开数据库
conOpen();
读取数据
OdbcDataReader reader = cmdExecuteReader();
把数据加载到临时表
dtLoad(reader);
在使用完毕之后,一定要关闭,要不然会出问题
readerClose();
这个问题是这样的:
首先你要明确你的插入是正常业务需求么?如果是,那么只能接受这样的数据插入量。
其次你说数据库存不下了 那么你可以让你的数据库上限变大 这个你可以在数据库里面设置的 里面有个数据库文件属性 maxsize
最后有个方法可以使用,如果你的历史数据不会对目前业务造成很大影响 可以考虑归档处理 定时将不用的数据移入历史表 或者另外一个数据库。
注意平时对数据库的维护 定期整理索引碎片
时间维度分区表,然后定情按照规则将属于历史的分区数据迁移到,历史库上,写个存储自动维护分区表。
如何用java jdbc 向数据库表插入大数据量一次性插入大量数据,只能使用循环,
如:游标,while 循环语句
下面介绍While 循环插入数据,
SQL 代码如下:
IF OBJECT_ID('dboNums') IS NOT NULL
DROP TABLE dboNums;
GO
CREATE TABLE dboNums(n INT NOT NULL PRIMARY KEY);
DECLARE @max AS INT, @rc AS INT;
SET @max = 5000000;
SET @rc = 1;
INSERT INTO Nums VALUES(1);
WHILE @rc 2 <= @max
BEGIN
INSERT INTO dboNums SELECT n + @rc FROM dboNums;
SET @rc = @rc 2;
END
INSERT INTO dboNums SELECT n + @rc FROM dboNums WHERE n + @rc <= @max;
--以上函数取自Inside SQL Server 2005: T-SQL Query一书。
INSERT dboSample SELECT n, RAND(CAST(NEWID() AS BINARY(16))) FROM Nums
php 怎么解决 大数据量 插入数据库ini_set('max_execution_time','0');
$pdo = new PDO("mysql:host=localhost;dbname=test","root","123456");
$sql = "insert into test(name,age,state,created_time) values";
for($i=0; $i<100000; $i++){
$sql ="('zhangsan',21,1,'2015-09-17')";
}
$sql = substr($sql,0,strlen($sql)-1);
var_dump($sql);
if($pdo -> exec($sql)){
echo "插入成功!";
echo $pdo -> lastinsertid();
}
试试吧。10万条1分钟多,我觉得还行
请教如何通过WCF传输大数据量数据就是直接把DataSet 类型作为参数直接传递给服务端
WCF默认支持这么做,直接传Datatable不行。
你看一下 “服务引用设置”中你选的 类型是什么,我选的是SystemArray
字典 类型是默认第一项 SystemCollectionsGenericDictionary
又是一个把自己架在火上烤的需求啊,
如果不考虑传输因素,可以调整wcf配置,提升传递的容量,如果是对象传递可能还要调整对象层次的深度
数据库的多表大数据查询应如何优化?
1应尽量避免在 where 子句中对字段进行 null 值判断,否则将导致引擎放弃使用索引而进行全表扫描,如:
select id from t where num is null
可以在num上设置默认值0,确保表中num列没有null值,然后这样查询:
select id from t where num=0
2应尽量避免在 where 子句中使用!=或<> *** 作符,否则将引擎放弃使用索引而进行全表扫描。优化器将无法通过索引来确定将要命中的行数,因此需要搜索该表的所有行。
3应尽量避免在 where 子句中使用 or 来连接条件,否则将导致引擎放弃使用索引而进行全表扫描,如:
select id from t where num=10 or num=20
可以这样查询:
select id from t where num=10
union all
select id from t where num=20
4in 和 not in 也要慎用,因为IN会使系统无法使用索引,而只能直接搜索表中的数据。如:
select id from t where num in(1,2,3)
对于连续的数值,能用 beeen 就不要用 in 了:
select id from t where num beeen 1 and 3
5尽量避免在索引过的字符数据中,使用非打头字母搜索。这也使得引擎无法利用索引。
见如下例子:
SELECT FROM T1 WHERE NAME LIKE ‘%L%’
SELECT FROM T1 WHERE SUBSTING(NAME,2,1)=’L’
SELECT FROM T1 WHERE NAME LIKE ‘L%’
即使NAME字段建有索引,前两个查询依然无法利用索引完成加快 *** 作,引擎不得不对全表所有数据逐条 *** 作来完成任务。而第三个查询能够使用索引来加快 *** 作。
6必要时强制查询优化器使用某个索引,如在 where 子句中使用参数,也会导致全表扫描。因为SQL只有在运行时才会解析局部变量,但优化程序不能将访问计划的选择推迟到运行时;它必须在编译时进行选择。然而,如果在编译时建立访问计划,变量的值还是未知的,因而无法作为索引选择的输入项。如下面语句将进行全表扫描:
select id from t where num=@num
可以改为强制查询使用索引:
select id from t with(index(索引名)) where num=@num
7应尽量避免在 where 子句中对字段进行表达式 *** 作,这将导致引擎放弃使用索引而进行全表扫描。如:
SELECT FROM T1 WHERE F1/2=100
应改为:
SELECT FROM T1 WHERE F1=1002
SELECT FROM RECORD WHERE SUBSTRING(CARD_NO,1,4)=’5378’
应改为:
SELECT FROM RECORD WHERE CARD_NO LIKE ‘5378%’
SELECT member_number, first_name, last_name FROM members
WHERE DATEDIFF(yy,datofbirth,GETDATE()) > 21
应改为:
SELECT member_number, first_name, last_name FROM members
WHERE dateofbirth < DATEADD(yy,-21,GETDATE())
即:任何对列的 *** 作都将导致表扫描,它包括数据库函数、计算表达式等等,查询时要尽可能将 *** 作移至等号右边。
8应尽量避免在where子句中对字段进行函数 *** 作,这将导致引擎放弃使用索引而进行全表扫描。如:
select id from t where substring(name,1,3)='abc'--name以abc开头的id
select id from t where datediff(day,createdate,'2005-11-30')=0--‘2005-11-30’生成的id
应改为:
select id from t where name like 'abc%'
select id from t where createdate>='2005-11-30' and createdate<'2005-12-1'
9不要在 where 子句中的“=”左边进行函数、算术运算或其他表达式运算,否则系统将可能无法正确使用索引。
10在使用索引字段作为条件时,如果该索引是复合索引,那么必须使用到该索引中的第一个字段作为条件时才能保证系统使用该索引,否则该索引将不会被使用,并且应尽可能的让字段顺序与索引顺序相一致。
11很多时候用 exists是一个好的选择:
elect num from a where num in(select num from b)
用下面的语句替换:
select num from a where exists(select 1 from b where num=anum)
SELECT SUM(T1C1)FROM T1 WHERE(
(SELECT COUNT()FROM T2 WHERE T2C2=T1C2>0)
SELECT SUM(T1C1) FROM T1WHERE EXISTS(
SELECT FROM T2 WHERE T2C2=T1C2)
两者产生相同的结果,但是后者的效率显然要高于前者。因为后者不会产生大量锁定的表扫描或是索引扫描。
Java怎么把数据库的数据查询Statement stmt = null;
ResultSet rs = null;
String query = "select 列名 from 表名 where id=11 and fname='xx' order by 列名 desc limit 1";
stmt = conncreateStatement();
rs = stmtexecuteQuery(query);
if (rsnext()) {
result = rsgetInt("列名");
}
数据库表内数据查询楼上的 拼写错误,我来修正 ^^
select count() from 表名
如何查询大数据库数据存在传统数据库处理大数据很困难吧,不建议使用传统数据库来处理大数据。
建议研究下,Hadoop,Hive等,可处理大数据。
如果有预算,可以使用一些商业大数据产品,国内的譬如永洪科技的大数据BI产品,不仅能高性能处理大数据,还可做数据分析。
当然如果是简单的查询,传统数据库如果做好索引,可能可以提高性能。
如何实现不同数据库的数据查询分页有两种方法
方法1:
select 100 from tbllendlist where fldserialNo not in ( select 300100 fldserialNo from tbllendlist order by fldserialNo ) order by fldserialNo
方法2:
SELECT TOP 100 FROM tbllendlist WHERE (fldserialNo > (SELECT MAX(fldserialNo) FROM (SELECT TOP 300100 fldserialNo FROM tbllendlist ORDER BY fldserialNo) AS T)) ORDER BY fldserialNo
如何提高Oracle数据库数据查询的命中率影响命中率的因素有四种:字典表活动、临时段活动、回滚段活动、表扫描, 应用DBA可以对这四种因素进行分析,找出数据库命中率低的症结所在。 1)字典表活动 当一个SQL语句第一次到达Oracle内核时数据库对SQL语句进行分析,包含在查询中的数据字典对象被分解,产生SQL执行路径。如果SQL语句指向一个不在SGA中的对象表或视图,Oracle执行SQL语句到数据典中查询有关对象的信息。数据块从数据字典表被读取到SGA的数据缓存中。由于每个数据字典都很小,因此,我们可缓存这些表以提高对这些表的命中率。但是由于数据字典表的数据块在SGA中占据空间,当增加全部的命中率时,它们会降低表数据块的可用空间, 所以若查询所需的时间字典信息已经在SGA缓存中,那么就没有必要递归调用。 2)临时段的活动 当用户执行一个需要排序的查询时,Oracle设法对内存中排序区内的所有行进行排序,排序区的大小由数据库的initora文件的数确定。如果排序区域不够大,数据库就会在排序 *** 作期间开辟临时段。临时段会人为地降低OLTP(online transaction processing)应用命中率,也会降低查询进行排序的性能。如果能在内存中完成全部排序 *** 作,就可以消除向临时段写数据的开销。所以应将SORT_AREA_SIZE设置得足够大,以避免对临时段的需要。这个参数的具体调整方法是:查询相关数据,以确定这个参数的调整。 select from v$sysstat where name='sorts(disk)'or name='sorts(memory); 大部分排序是在内存中进行的,但还有小部分发生在临时段, 需要调整 值,查看initora文件的 SORT_AREA_SIZE值,参数为:SORT_AREA_SIZE=65536;将其调整到SORT_AREA_SIZE=131072、这个值调整后,重启ORACLE数据库即可生效。 3)回滚段的活动 回滚段活动分为回滚活动和回滚段头活动。对回滚段头块的访问会降低应用的命中率, 对OLTP系统命中率的影响最大。为确认是否因为回滚段影响了命中率,可以查看监控输出报表中的“数据块相容性读一重写记录应用” 的统计值,这些统计值是用来确定用户从回滚段中访问数据的发生次数。 4)表扫描 通过大扫描读得的块在数据块缓存中不会保持很长时间, 因此表扫描会降低命中率。为了避免不必要的全表扫描,首先是根据需要建立索引,合理的索引设计要建立人对各种查询的分析和预测上,笔者会在SQL优化中详细谈及;其次是将经常用到的表放在内存中,以降低磁盘读写次数。
如何优化数据库提高数据库的效率1 SQL优化的原则是:将一次 *** 作需要读取的BLOCK数减到最低,即在最短的时间达到最大的数据吞吐量。
调整不良SQL通常可以从以下几点切入:
检查不良的SQL,考虑其写法是否还有可优化内容
检查子查询 考虑SQL子查询是否可以用简单连接的方式进行重新书写
检查优化索引的使用
考虑数据库的优化器
2 避免出现SELECT FROM table 语句,要明确查出的字段。
3 在一个SQL语句中,如果一个where条件过滤的数据库记录越多,定位越准确,则该where条件越应该前移。
4 查询时尽可能使用索引覆盖。即对SELECT的字段建立复合索引,这样查询时只进行索引扫描,不读取数据块。
5 在判断有无符合条件的记录时建议不要用SELECT COUNT ()和select 1 语句。
6 使用内层限定原则,在拼写SQL语句时,将查询条件分解、分类,并尽量在SQL语句的最里层进行限定,以减少数据的处理量。
7 应绝对避免在order by子句中使用表达式。
8 如果需要从关联表读数据,关联的表一般不要超过7个。
9 小心使用 IN 和 OR,需要注意In集合中的数据量。建议集合中的数据不超过200个。
10 <> 用 < 、 > 代替,>用>=代替,<用<=代替,这样可以有效的利用索引。
11 在查询时尽量减少对多余数据的读取包括多余的列与多余的行。
12 对于复合索引要注意,例如在建立复合索引时列的顺序是F1,F2,F3,则在where或order by子句中这些字段出现的顺序要与建立索引时的字段顺序一致,且必须包含第一列。只能是F1或F1,F2或F1,F2,F3。否则不会用到该索引。
13 多表关联查询时,写法必须遵循以下原则,这样做有利于建立索引,提高查询效率。格式如下select sum(table1je) from table1 table1, table2 table2, table3 table3 where (table1的等值条件(=)) and (table1的非等值条件) and (table2与table1的关联条件) and (table2的等值条件) and (table2的非等值条件) and (table3与table2的关联条件) and (table3的等值条件) and (table3的非等值条件)。
注:关于多表查询时from 后面表的出现顺序对效率的影响还有待研究。
14 子查询问题。对于能用连接方式或者视图方式实现的功能,不要用子查询。例如:select name from customer where customer_id in ( select customer_id from order where money>1000)。应该用如下语句代替:select name from customer inner join order on customercustomer_id=ordercustomer_id where ordermoney>100。
15 在WHERE 子句中,避免对列的四则运算,特别是where 条件的左边,严禁使用运算与函数对列进行处理。比如有些地方 substring 可以用like代替。
16 如果在语句中有not in(in) *** 作,应考虑用not exists(exists)来重写,最好的办法是使用外连接实现。
17 对一个业务过程的处理,应该使事物的开始与结束之间的时间间隔越短越好,原则上做到数据库的读 *** 作在前面完成,数据库写 *** 作在后面完成,避免交叉。
18 请小心不要对过多的列使用列函数和order by,group by等,谨慎使用disti软件开发t。
19 用union all 代替 union,数据库执行union *** 作,首先先分别执行union两端的查询,将其放在临时表中,然后在对其进行排序,过滤重复的记录。
当已知的业务逻辑决定query A和query B中不会有重复记录时,应该用union all代替union,以提高查询效率。
数据更新的效率
1 在一个事物中,对同一个表的多个insert语句应该集中在一起执行。
2 在一个业务过程中,尽量的使insert,update,delete语句在业务结束前执行,以减少死锁的可能性。
数据库物理规划的效率
为了避免I/O的冲突,我们在设计数据库物理规划时应该遵循几条基本的原则(以ORACLE举例):
table和index分离:table和index应该分别放在不同的tablespace中。
Rollback Segment的分离:Rollback Segment应该放在独立的Tablespace中。
System Tablespace的分离:System Tablespace中不允许放置任何用户的object。(mssql中primary filegroup中不允许放置任何用户的object)
Temp Tablesace的分离:建立单独的Temp Tablespace,并为每个user指定default Temp Tablespace
避免碎片:但segment中出现大量的碎片时,会导致读数据时需要访问的block数量的增加。对经常发生DML *** 作的segemeng来说,碎片是不能完全避免的。所以,我们应该将经常做DML *** 作的表和很少发生变化的表分离在不同的Tablespace中。
当我们遵循了以上原则后,仍然发现有I/O冲突存在,我们可以用数据分离的方法来解决。
连接Table的分离:在实际应用中经常做连接查询的Table,可以将其分离在不同的Taclespace中,以减少I/O冲突。
使用分区:对数据量很大的Table和Index使用分区,放在不同的Tablespace中。
在实际的物理存储中,建议使用RAID。日志文件应放在单独的磁盘中。
数据库的查询优化算法给出你的查询,然后才可以对其进行优化
如何优化SQL Server数据库查询如果你的查询比较固定,并且查询的条件区别度较高,可以建立相应的索引。
其他的一些规则,比如使用exists代替 in都可以试试
查询速度慢的原因很多,常见如下几种:
1、没有索引或者没有用到索引(这是查询慢最常见的问题,是程序设计的缺陷)
2、I/O吞吐量小,形成了瓶颈效应。
3、没有创建计算列导致查询不优化。
4、内存不足
5、网络速度慢
6、查询出的数据量过大(可以采用多次查询,其他的方法降低数据量)
7、锁或者死锁(这也是查询慢最常见的问题,是程序设计的缺陷)
8、sp_lock,sp_who,活动的用户查看,原因是读写竞争资源。
9、返回了不必要的行和列
10、查询语句不好,没有优化
可以通过如下方法来优化查询 :
1、把数据、日志、索引放到不同的I/O设备上,增加读取速度,以前可以将Tempdb应放在RAID0上,SQL2000不在支持。数据量(尺寸)越大,提高I/O越重要
2、纵向、横向分割表,减少表的尺寸(sp_spaceuse)
3、升级硬件
4、根据查询条件,建立索引,优化索引、优化访问方式,限制结果集的数据量。注意填充因子要适当(最好是使用默认值0)。索引应该尽量小,使用字节数小的列建索引好(参照索引的创建),不要对有限的几个值的字段建单一索引如性别字段
5、提高网速;
6、扩大服务器的内存,Windows 2000和SQL server 2000能支持4-8G的内存。配置虚拟内存:虚拟内存大小应基于计算机上并发运行的服务进行配置。运行 Microsoft SQL Server 2000 时,可考虑将虚拟内存大小设置为计算机中安装的物理内存的 15 倍。如果另外安装了全文检索功能,并打算运行 Microsoft 搜索服务以便执行全文索引和查询,可考虑:将虚拟内存大小配置为至少是计算机中安装的物理内存的 3 倍。将 SQL Server max server memory 服务器配置选项配置为物理内存的 15 倍(虚拟内存大小设置的一半)。
7、增加服务器 CPU个数; 但是必须明白并行处理串行处理更需要资源例如内存。使用并行还是串行程是MsSQL自动评估选择的。单个任务分解成多个任务,就可以在处理器上运行。例如耽搁查询的排序、连接、扫描和GROUP BY字句同时执行,SQL SERVER根据系统的负载情况决定最优的并行等级,复杂的需要消耗大量的CPU的查询最适合并行处理。但是更新 *** 作Update,Insert, Delete还不能并行处理。
8、如果是使用like进行查询的话,简单的使用index是不行的,但是全文索引,耗空间。 like 'a%' 使用索引 like '%a' 不使用索引用 like '%a%' 查询时,查询耗时和字段值总长度成正比,所以不能用CHAR类型,而是VARCHAR。对于字段的值很长的建全文索引。
9、DB Server 和APPLication Server 分离;OLTP和OLAP分离
10、分布式分区视图可用于实现数据库服务器联合体。联合体是一组分开管理的服务器,但它们相互协作分担系统的处理负荷。这种通过分区数据形成数据库服务器联合体的机制能够扩大一组服务器,以支持大型的多层 Web 站点的处理需要。有关更多信息,参见设计联合数据库服务器。(参照SQL帮助文件'分区视图')
a、在实现分区视图之前,必须先水平分区表
b、在创建成员表后,在每个成员服务器上定义一个分布式分区视图,并且每个视图具有相同的名称。这样,引用分布式分区视图名的查询可以在任何一个成员服务器上运行。系统 *** 作如同每个成员服务器上都有一个原始表的复本一样,但其实每个服务器上只有一个成员表和一个分布式分区视图。数据的位置对应用程序是透明的。
11、重建索引 DBCC REINDEX ,DBCC INDEXDEFRAG,收缩数据和日志 DBCC SHRINKDB,DBCC SHRINKFILE 设置自动收缩日志对于大的数据库不要设置数据库自动增长,它会降低服务器的性能。在T-sql的写法上有很大的讲究,下面列出常见的要点:首先,DBMS处理查询计划的过程是这样的:
1、 查询语句的词法、语法检查
2、 将语句提交给DBMS的查询优化器
3、 优化器做代数优化和存取路径的优化
4、 由预编译模块生成查询规划
5、 然后在合适的时间提交给系统处理执行
6、 最后将执行结果返回给用户其次,看一下SQL SERVER的数据存放的结构:一个页面的大小为8K(8060)字节,8个页面为一个盘区,按照B树存放。
12、Commit和rollback的区别 Rollback:回滚所有的事物。 Commit:提交当前的事物 没有必要在动态SQL里写事物,如果要写请写在外面如: begin tran exec(@s) mit trans 或者将动态SQL 写成函数或者存储过程。
13、在查询Select语句中用Where字句限制返回的行数,避免表扫描,如果返回不必要的数据,浪费了服务器的I/O资源,加重了网络的负担降低性能。如果表很大,在表扫描的期间将表锁住,禁止其他的联接访问表,后果严重。
14、SQL的注释申明对执行没有任何影响
15、尽可能不使用光标,它占用大量的资源。如果需要row-by-row地执行,尽量采用非光标技术,如:在客户端循环,用临时表,Table变量,用子查询,用Case语句等等。游标可以按照它所支持的提取选项进行分类: 只进 必须按照从第一行到最后一行的顺序提取行。FETCH NEXT 是唯一允许的提取 *** 作,也是默认方式。可滚动性可以在游标中任何地方随机提取任意行。游标的技术在SQL2000下变得功能很强大,他的目的是支持循环。有四个并发选项 READ_ONLY:不允许通过游标定位更新(Update),且在组成结果集的行中没有锁。 OPTIMISTIC WITH valueS:乐观并发控制是事务控制理论的一个标准部分。乐观并发控制用于这样的情形,即在打开游标及更新行的间隔中,只有很小的机会让第二个用户更新某一行。当某个游标以此选项打开时,没有锁控制其中的行,这将有助于最大化其处理能力。如果用户试图修改某一行,则此行的当前值会与最后一次提取此行时获取的值进行比较。如果任何值发生改变,则服务器就会知道其他人已更新了此行,并会返回一个错误。如果值是一样的,服务器就执行修改。选择这个并发选项OPTIMISTIC WITH ROW VERSIONING:此乐观并发控制选项基于行版本控制。使用行版本控制,其中的表必须具有某种版本标识符,服务器可用它来确定该行在读入游标后是否有所更改。在 SQL Server 中,这个性能由 timestamp 数据类型提供,它是一个二进制数字,表示数据库中更改的相对顺序。每个数据库都有一个全局当前时间戳值:@@DBTS。每次以任何方式更改带有 timestamp 列的行时,SQL Server 先在时间戳列中存储当前的 @@DBTS 值,然后增加 @@DBTS 的值。如果某 个表具有 timestamp 列,则时间戳会被记到行级。服务器就可以比较某行的当前时间戳值和上次提取时所存储的时间戳值,从而确定该行是否已更新。服务器不必比较所有列的值,只需比较 timestamp 列即可。如果应用程序对没有 timestamp 列的表要求基于行版本控制的乐观并发,则游标默认为基于数值的乐观并发控制。 SCROLL LOCKS 这个选项实现悲观并发控制。在悲观并发控制中,在把数据库的行读入游标结果集时,应用程序将试图锁定数据库行。在使用服务器游标时,将行读入游标时会在其上放置一个更新锁。如果在事务内打开游标,则该事务更新锁将一直保持到事务被提交或回滚;当提取下一行时,将除去游标锁。如果在事务外打开游标,则提取下一行时,锁就被丢弃。因此,每当用户需要完全的悲观并发控制时,游标都应在事务内打开。更新锁将阻止任何其它任务获取更新锁或排它锁,从而阻止其它任务更新该行。然而,更新锁并不阻止共享锁,所以它不会阻止其它任务读取行,除非第二个任务也在要求带更新锁的读取。滚动锁根据在游标定义的 Select 语句中指定的锁提示,这些游标并发选项可以生成滚动锁。滚动锁在提取时在每行上获取,并保持到下次提取或者游标关闭,以先发生者为准。下次提取时,服务器为新提取中的行获取滚动锁,并释放上次提取中行的滚动锁。滚动锁独立于事务锁,并可以保持到一个提交或回滚 *** 作之后。如果提交时关闭游标的选项为关,则 COMMIT 语句并不关闭任何打开的游标,而且滚动锁被保留到提交之后,以维护对所提取数据的隔离。所获取滚动锁的类型取决于游标并发选项和游标 Select 语句中的锁提示。锁提示 只读 乐观数值 乐观行版本控制 锁定无提示 未锁定 未锁定 未锁定 更新 NOLOCK 未锁定 未锁定未锁定 未锁定 HOLDLOCK 共享 共享 共享 更新 UPDLOCK 错误 更新 更新 更新 TABLOCKX 错误 未锁定 未锁定更新其它 未锁定 未锁定 未锁定 更新 指定 NOLOCK 提示将使指定了该提示的表在游标内是只读的。
16、用Profiler来跟踪查询,得到查询所需的时间,找出SQL的问题所在; 用索引优化器优化索引
17、注意UNion和UNion all 的区别。UNION all好
18、注意使用DISTINCT,在没有必要时不要用,它同UNION一样会使查询变慢。重复的记录在查询里是没有问题的
19、查询时不要返回不需要的行、列
20、用sp_configure 'query governor cost limit'或者SET QUERY_GOVERNOR_COST_LIMIT来限制查询消耗的资源。当评估查询消耗的资源超出限制时,服务器自动取消查询,在查询之前就扼杀掉。 SET LOCKTIME设置锁的时间
21、用select 100 / 10 Percent 来限制用户返回的行数或者SET ROWCOUNT来限制 *** 作的行
22、在SQL2000以前,一般不要用如下的字句: "IS NULL", "<>", "!=", "!>", "!<", "NOT", "NOT EXISTS", "NOT IN", "NOT LIKE", and "LIKE '%500'",因为他们不走索引全是表扫描。也不要在Where字句中的列名加函数,如Convert,substring等,如果必须用函数的时候,创建计算列再创建索引来替代还可以变通写法:Where SUBSTRING(firstname,1,1) = 'm'改为Where firstname like 'm%'(索引扫描),一定要将函数和列名分开。并且索引不能建得太多和太大。NOT IN会多次扫描表,使用EXISTS、NOT EXISTS ,IN , LEFT OUTER JOIN 来替代,特别是左连接,而Exists比IN更快,最慢的是NOT *** 作如果列的值含有空,以前它的索引不起作用,现在2000的优化器能够处理了。相同的是IS NULL,"NOT", "NOT EXISTS", "NOT IN"能优化她,而"<>"等还是不能优化,用不到索引。
23、使用Query Analyzer,查看SQL语句的查询计划和评估分析是否是优化的SQL。一般的20%的代码占据了80%的资源,我们优化的重点是这些慢的地方。
24、如果使用了IN或者OR等时发现查询没有走索引,使用显示申明指定索引: Select FROM PersonMember (INDEX = IX_Title) Where processid IN ('男','女')
25、将需要查询的结果预先计算好放在表中,查询的时候再Select。这在SQL70以前是最重要的手段。例如医院的住院费计算。
26、MIN() 和 MAX()能使用到合适的索引。
27、数据库有一个原则是代码离数据越近越好,所以优先选择Default,依次为Rules,Triggers, Constraint(约束如外健主健CheckUNIQUE……,数据类型的最大长度等等都是约束),Procedure这样不仅维护工作小,编写程序质量高,并且执行的速度快。
28、如果要插入大的二进制值到Image列,使用存储过程,千万不要用内嵌Insert来插入(不知JAVA是否)。因为这样应用程序首先将二进制值转换成字符串(尺寸是它的两倍),服务器受到字符后又将他转换成二进制值存储过程就没有这些动作: 方法:Create procedure p_insert as insert into table(Fimage) values (@image), 在前台调用这个存储过程传入二进制参数,这样处理速度明显改善
以上就是关于SQLServer数据库的注意事项全部的内容,包括:SQLServer数据库的注意事项、6大对象和数据库 *** 作简单学、数据库调优的方法有哪些等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)