IT培训分享大规模数据库的性能和伸缩性的优化_工具

在需要支持移动/平板电脑应用及普通桌面浏览器访问的时代，网站的普及率和有效性很大程度上取决于其可用性和性能。一个访问缓慢的网站会使得访问者或潜在的客户流失，并导致商业的失败。IT培训认为一个访问速度相当快的网站将会决定访客是否会使用网站提供的产品或服务。

拥有大规模数据库的网站始终需要适当的关注、配置、优化、调整和维护，以确保网站的快速加载。这篇文章将讨论如何优化有海量数据的MySQL数据库。

选择InnoDB作为存储引擎

大型产品的数据库对于可靠性和并发性的要求较高，InnoDB作为默认的MySQL存储引擎，相对于MyISAM来说是个更佳的选择。

优化数据库结构

组织数据库的schema、表和字段以降低I/O的开销，将相关项保存在一起，并提前规划，以便随着数据量的增长，性能可以保持较高的水平。

设计数据表应尽量使其占用的空间最小化，表的主键应尽可能短。

对于InnoDB表，主键所在的列在每个辅助索引条目中都是可复制的，因此如果有很多辅助索引，那么一个短的主键可以节省大量空间。

仅创建你需要改进查询性能的索引。索引有助于检索，但是会增加插入和更新 *** 作的执行时间。

InnoDB的ChangeBuffering特性

InnoDB提供了changebuffering的配置，可减少维护辅助索引所需的磁盘I/O。大规模的数据库可能会遇到大量的表 *** 作和大量的I/O，以保证辅助索引保持最新。当相关页面不在缓冲池里面时，InnoDB的changebuffer将会更改缓存到辅助索引条目，从而避免因不能立即从磁盘读取页面而导致耗时的I/O *** 作。当页面被加载到缓冲池时，缓冲的更改将被合并，更新的页面之后会刷新到磁盘。这样做可提高性能，适用于MySQL55及更高版本。

我们都知道，服务器数据库的开发一般都是通过java或者是PHP语言来编程实现的，而为了提高我们数据库的运行速度和效率，数据库优化也成为了我们每日的工作重点，今天，北京IT培训就一起来了解一下mysql服务器数据库的优化方法。

为什么要了解索引

真实案例

案例一：大学有段时间学习爬虫，爬取了知乎300w用户答题数据，存储到mysql数据中。那时不了解索引，一条简单的“根据用户名搜索全部回答的sql“需要执行半分钟左右，完全满足不了正常的使用。

案例二：近线上应用的数据库频频出现多条慢sql风险提示，而工作以来，对数据库优化方面所知甚少。例如一个用户数据页面需要执行很多次数据库查询，性能很慢，通过增加超时时间勉强可以访问，但是性能上需要优化。

索引的优点

合适的索引，可以大大减小mysql服务器扫描的数据量，避免内存排序和临时表，提高应用程序的查询性能。

索引的类型

mysql数据中有多种索引类型，primarykey，unique，normal，但底层存储的数据结构都是BTREE;有些存储引擎还提供hash索引，全文索引。

BTREE是常见的优化要面对的索引结构，都是基于BTREE的讨论。

B-TREE

查询数据简单暴力的方式是遍历所有记录;如果数据不重复，就可以通过组织成一颗排序二叉树，通过二分查找算法来查询，大大提高查询性能。而BTREE是一种更强大的排序树，支持多个分支，高度更低，数据的插入、删除、更新更快。

现代数据库的索引文件和文件系统的文件块都被组织成BTREE。

btree的每个节点都包含有key，data和只想子节点指针。

btree有度的概念d>=1。假设btree的度为d，则每个内部节点可以有n=[d+1，2d+1)个key，n+1个子节点指针。树的大高度为h=Logb[(N+1)/2]。

索引和文件系统中，B-TREE的节点常设计成接近一个内存页大小(也是磁盘扇区大小)，且树的度非常大。这样磁盘I/O的次数，就等于树的高度h。假设b=100，一百万个节点的树，h将只有3层。即，只有3次磁盘I/O就可以查找完毕，性能非常高。

索引查询

建立索引后，合适的查询语句才能大发挥索引的优势。

另外，由于查询优化器可以解析客户端的sql语句，会调整sql的查询语句的条件顺序去匹配合适的索引。

List<Student> list = new ArrayList<Student>();

for(int i=0;i<listsize();i++){

Student st = (Student)listget(i);

Object o = getHibernateTemplate()get(Studentclass, stgetStudentId());

if(null == o){

Address addr = new Address();

getHibernateTemplate()saveOrUpdate(addr);

getHibernateTemplate()saveOrUpdate(o);

getSession()flush();

getSession()evict(addr);

getSession()evict(o);

} else {

Address addr = methodForFindAddr(o);

getHibernateTemplate()saveOrUpdate(hql);

getHibernateTemplate()saveOrUpdate(o);

getSession()flush();

getSession()evict(addr);

getSession()evict(o);

}

现在实现如上面代码所示，如果list数据量比较小的话，还可勉强凑合，若超过数万条数据，需耗费大量时间，有什么好的建议对此进行优化？

我曾试两种方法：1过线程池的方式，可方法methodForFindAddr可能会出现同步问题，线程之间数据串了。

2将所有saveOrUpdate的对象抽取出来，循环批量保存，每循环50次，flush一次。可是两个循环耗费的时间仍然很长。

一、选择合理的备份时机。虽然说，SQL Server数据库在联机或者活动状态，也可以进行备份。但是，一般情况下，笔者不建议这么做。因为在数据库活动的时候进行备份的话，一方面会增加备份的时间;另一方面，因为备份作业占用了一定的硬件资源，会对数据库的访问性能产生比较大的影响，特别是并发性访问。所以，在数据库备份的时候，数据库管理员应当尽量减少SQL Server中的当前活动。对于大部分企业来说，一般数据库活动的高发期在白天的八个小时。故从理论上说，除了这八个小时外，对数据库进行备份的话，可以把这个不利影系降低到最低。笔者现在的备份策略，就是在凌晨一点开始进行数据库备份。根据笔者一段时间的追踪，发现在这个时段内，基本上没有用户访问数据库。故笔者利用SQL Server的任务计划结合数据库的备份策略，定在凌层这个时间进行数据库备份。不过，为了保障数据库备份的准确性，在第二天上班后，就需要查看相关的备份日志。看看在备份的过程中有否出现异常情况。若有的话，要及时加以解决。总之，数据库备份的时机选择上，一个基本原则就是“在备份作业进行的整个过程中，尽量减少数据库的当前活动”。二、备份到多个物理设备。通常情况下，与备份到单个物理设备相比，备份到多个物理设备的速度会更快一点。为此，数据库管理员可以通过并行方式将数据复制到各个备份设备中。SQL Server服务器通过相关技术，能够充分利用多个备份设备的优势。SQL Server数据库可以同时向多个备份文件进行写 *** 作。在企业具有多个备份文件的时候，数据库可以将数据条带化的分布到用于创建备份的全部文件中。通俗说的说，就是建立多个备份文件，然后把不同的备份文件存储在不同的物理设备上。如此的话，就好像是在泄洪的时候，多开几个通道。那么，很明显可以缩短备份的时间。在另一方面，也就降低了备份作业对数据库的不利影响。从理论上说，如果备份到单个设备上需要3个小时，则备份到两个硬盘上的话，则可以缩短为一个半小时。当然，实际能够把备份时间缩短到多少，还跟硬件的读取速度、服务器的性能相关。但是可以肯定的一点就是，把备份文件存储到多个硬件设备中，实现条带化备份，是可以大幅度的缩短备份所需要的时间。在使用这种方法降低备份对数据库的不利影响，需要注意以下几个方面的内容：1、在备份时，所采用的硬件设备必须属于同种类型的媒体。现在用户备份的媒体主要有磁带或者硬盘。不过，现在基本上大家都习惯于硬盘。在进行条带化备份的时候，数据库管理员不能够在单个备份媒体集中混合使用磁带或者硬盘设备。这是在工作中要切记的一个限制条件。2、如果将某个备份文件定义为备份集成员，那么用户就必须一起使用这些文件。也就是说，数据库管理员若设置了多个备份文件，则无论是在对其进行异地备份，还是在进行还原的时候，要对所有的备份文件进行 *** 作。不然的话，很可能会丢失部分数据。这就好像一个蛋糕，数据库管理员把它切成一快一快。若要把它换一个地方存放的话，则要把切割后的每一块蛋糕都搬走。少一块的话，蛋糕就不完整了。这也是类似的道理。3、如果删除了某个备份集的成员，则备份集中其他成员所包含的数据是无效的，不能够被使用。也就是说，数据库在执行条带化备份的时候，在各个备份文件中存储的数据是没有规则的。并不是说，一个备份文件中就存储索引，另一个备份文件中存储数据信息。即时某个备份文件不小心丢失了，仍然可以利用另外的备份文件修复部分数据。这是不肯能的。这就好利用RAR等工具分割压缩文件的时候，必须所有的压缩文件齐全，才能够解压缩文件。故这就要求数据库管理员在对这些文件进行异地备份的时候，要考虑其完整性。在SQL Server数据库中，可以利用MEDIANAME参数来为整个备份媒体集指名媒体名。当使用多个文件来备份数据库的时候，数据库管理员就要使用这个选项。利用这个参数，可以把各个独立的备份文件作为媒体集的成员而相互联系起来。三、物理设备的速度决定备份所需要的时间。不同类型的物理设备，由于其本身性能的差异，对数据库备份的时间也会有不小的影响。如早起的磁带备份设备，相比较磁盘设备来说，备份就需要花费更多的时间。现在硬件设备在不断的跌价中，故数据库管理员在备份设备的选择上，可以有更多的选择余地。在力所能及的情况下，最好能够选择性能高一点的备份设备。另外，即使都是硬盘，其性能也会有所差异。故数据库管理员最好能够跟硬件管理人眼一起，商量确定一个合适的硬件设备。四、合理使用完全数据库备份。一般来说，数据库备份包括完全数据库备份、差异数据库备份等等几种方式。而对数据库进行完全备份，所需要花费的时间最长。故若数据库管理员能够合理选择完全数据库备份的时机，就可以大幅度的降低数据库备份对服务器性能的不利影响。通常来说，在下面两种情况下，可以考虑只采用数据库完全备份。一是在数据库容量比较小的时候。若数据库管理员认为备份这个小型数据库所花费的时间是可以忍受的，则就可以采用完全数据库备份策略。二是数据库的数据修改频率很低，或者数据库是只读的。此时，数据库管理员若执行完全数据库备份，将会备份相当完整的数据集。如果数据库在两次备份之间不幸出现了故障，对其进行恢复时，企业用户或许可以少受损失。在完全备份的时候，SQL Server会备份在备份过程中发生的任何活动;同行也会备份事务日志中的任何未提交事务。这主要是因为在对数据库进行恢复的时候，为了保证数据的一致性，SQL Server需要使用备份文件中所记录的部分事务日志。除了以上两种情况外，最好对数据库执行完全备份与差异备份结合的策略。如笔者企业现在的备份策略是，从星期一到星期六执行差异备份，星期天执行完全备份。因为差异备份要比完全备份所花费的时间少的多。通过这种方式，即保障了数据的安全性，同时，也可以最大限度的对数据备份的性能进行优化。总之，在数据库备份的时候，这个作业对数据库性能的不利影响肯定是存在的。数据库管理员现在可以做的，就是想法设法，把数据库备份所需要的时间尽量缩短。并且合理安排数据库备份的时间，要把数据库备份作业跟用户使用数据库的的繁忙时间错开，减少他们对于硬件资源的争夺。

进行SQL性能优化的方法：

1、SQL语句不要写的太复杂。一个SQL语句要尽量简单，不要嵌套太多层。

2、使用『临时表』缓存中间结果。简化SQL语句的重要方法就是采用临时表暂存中间结果，这样可以避免程序中多次扫描主表，也大大减少了阻塞，提高了并发性能。

3、使用like的时候要注意是否会导致全表扫，有的时候会需要进行一些模糊查询例如：select id from table where username like ‘%hollis%’关键词%hollis%，由于hollis前面用到了“%”，因此该查询会使用全表扫描，除非必要，否则不要在关键词前加%。

4、尽量避免使用!=或<> *** 作符。在where语句中使用!=或<>，引擎将放弃使用索引而进行全表扫描。

5、尽量避免使用 or 来连接条件；在 where 子句中使用 or 来连接条件，引擎将放弃使用索引而进行全表扫描。可以使用

select id from t where num=10

union all

select id from t where num=20

替代

select id from t where num=10 or num=20

6、尽量避免使用in和not in：在 where 子句中使用 in和not in，引擎将放弃使用索引而进行全表扫描。可以使用

select id from t where num between 10 and 20

替代

select id from t where num in (10,20)

7、可以考虑强制查询使用索引

select from table force index(PRI) limit 2;(强制使用主键)

select from table force index(hollis_index) limit 2;(强制使用索引"hollis_index")

select from table force index(PRI,hollis_index) limit 2;(强制使用索引"PRI和hollis_index")

8、尽量避免使用表达式、函数等 *** 作作为查询条件；尽量避免大事务 *** 作，提高系统并发能力。尽量避免使用游标；任何地方都不要使用 select from t ，用具体的字段列表代替“”，不要返回用不到的任何字段。

9、尽可能的使用 varchar/nvarchar 代替 char/nchar。尽量使用数字型字段，若只含数值信息的字段尽量不要设计为字符型，这会降低查询和连接的性能，并会增加存储开销。

10、索引并不是越多越好，索引固然可以提高相应的 select 的效率，但同时也降低了 insert 及 update 的效率、并不是所有索引对查询都有效，SQL是根据表中数据来进行查询优化的，当索引列有大量数据重复时，SQL查询可能不会去利用索引。

在数据库应用系统中编写可执行的SQL语句可以有多种方式实现，但哪一条是最佳方案却难以确定。为了解决这一问题，有必要对SQL实施优化。简单地说，SQL语句的优化就是将性能低下的SQL语句转换成达到同样目的的性能更好的SQL语句。

优化SQL语句的原因

数据库系统的生命周期可以分成: 设计、开发和成品三个阶段。在设计阶段进行优化的成本最低，收益最大。在成品阶段进行优化的成本最高，收益最小。如果将一个数据库系统比喻成一座楼房，在楼房建好后进行矫正往往成本很高而收效很小（甚至可能根本无法矫正），而在楼房设计、生产阶段控制好每块砖瓦的质量就能达到花费小而见效高的目的。

为了获得最大效益，人们常需要对数据库进行优化。数据库的优化通常可以通过对网络、硬件、 *** 作系统、数据库参数和应用程序的优化来进行。根据统计，对网络、硬件、 *** 作系统、数据库参数进行优化所获得的性能提升全部加起来只占数据库应用系统性能提升的40%左右，其余60%的系统性能提升全部来自对应用程序的优化。许多优化专家甚至认为对应用程序的优化可以得到80%的系统性能提升。因此可以肯定，通过优化应用程序来对数据库系统进行优化能获得更大的收益。

对应用程序的优化通常可分为两个方面: 源代码的优化和SQL语句的优化。由于涉及到对程序逻辑的改变，源代码的优化在时间成本和风险上代价很高(尤其是对正在使用中的系统进行优化) 。另一方面，源代码的优化对数据库系统性能的提升收效有限，因为应用程序对数据库的 *** 作最终要表现为SQL语句对数据库的 *** 作。

对SQL语句进行优化有以下一些直接原因：

1 SQL语句是对数据库(数据) 进行 *** 作的惟一途径，应用程序的执行最终要归结为SQL语句的执行，SQL语句的效率对数据库系统的性能起到了决定性的作用。

2 SQL语句消耗了70%～90%的数据库资源。

3 SQL语句独立于程序设计逻辑，对SQL语句进行优化不会影响程序逻辑，相对于对程序源代码的优化，对SQL语句的优化在时间成本和风险上的代价都很低。

4 SQL语句可以有不同的写法，不同的写法在性能上的差异可能很大。

5 SQL语句易学，难精通。SQL语句的性能往往同实际运行系统的数据库结构、记录数量等有关，不存在普遍适用的规律来提升性能。

传统的优化方法

SQL程序人员在传统上采用手工重写来对SQL语句进行优化。这主要依靠DBA或资深程序员对SQL语句执行计划的分析，依靠经验，尝试重写SQL语句，然后对结果和性能进行比较以试图找到性能较佳的SQL语句。这种做法存在着以下不足：

1 无法找出SQL语句的所有可能写法。很可能花费了大量的时间也无法找到性能较佳的SQL语句。即便找到了某个性能较佳的SQL语句也无法知道是否存在性能更好的写法。

2 非常依赖于人的经验，经验的多寡往往决定了优化后SQL语句的性能。

3 非常耗时间。重写-->校验正确性-->比较性能，这一循环过程需要大量的时间。

根据传统的SQL优化工具的功能，人们一般将优化工具分为以下三代产品：

第一代的SQL优化工具是执行计划分析工具。这类工具对输入的SQL语句从数据库提取执行计划，并解释执行计划中关键字的含义。

第二代的SQL优化工具只能提供增加索引的建议，它通过对输入的SQL语句的执行计划的分析来产生是否要增加索引的建议。这类工具存在着致命的缺点——只分析了一条SQL语句就得出增加某个索引的结论，根本不理会(实际上也无法评估到)增加的索引对整体数据库系统性能的影响。

第三代工具是利用人工智能实现自动SQL优化。

人工智能自动SQL优化

随着人工智能技术的发展和在数据库优化领域应用的深入，在20世纪90年代末优化技术取得了突破性的进展，出现了人工智能自动SQL优化。人工智能自动SQL优化的本质就是借助人工智能技术，自动对SQL语句进行重写，找到性能最好的等效SQL语句。LECCO SQL Expert就采用了这种人工智能技术，其SQL Expert支持Oracle、Sybase、MS SQL Server和IBM DB2数据库平台。其突出特点是自动优化SQL语句。除此以外，还可以以人工智能知识库“反馈式搜索引擎”来重写SQL语句，并找出所有等效的SQL语句及可能的执行计划，通过测试运行为应用程序和数据库自动找到性能最好的SQL语句，提供微秒级的计时; 能够优化Web应用程序和有大量用户的在线事务处理中运行时间很短的SQL语句; 能通过比较源SQL和待选SQL的不同之处，为开发人员提供“边做边学式训练”，迅速提高开发人员的SQL编程技能等等。

该工具针对数据库应用的开发和维护阶段提供了数个特别的模块：SQL语法优化器、PL/SQL集成化开发调试环境(IDE)、扫描器、数据库监视器等。其核心模块之一“SQL 语法优化器”的工作原理大致如下：输入一条源SQL语句，“人工智能反馈式搜索引擎”对输入的SQL语句结合检测到的数据库结构和索引进行重写，产生N条等效的SQL语句输出，产生的N条等效SQL语句再送入“人工智能反馈式搜索引擎”进行重写，直至无法产生新的输出或搜索限额满，接下来对输出的SQL语句进行过滤，选出具有不同执行计划的SQL语句(不同的执行计划意味着不同的执行效率)，最后，对得到的SQL语句进行批量测试，找出性能最好的SQL语句（参见下图）。

图人工智能自动SQL优化示意图

LECCO SQL Expert不仅能够找到最佳的SQL语句，它所提供的“边做边学式训练”还能够教会开发人员和数据库管理员如何写出性能最好的SQL语句。LECCO SQL Expert的SQL语句自动优化功能使SQL的优化变得极其简单，只要能够写出SQL语句，它就能帮开发人员找到最好性能的写法。

小结

SQL语句是数据库应用中一个非常关键的部分，它执行性能的高低直接影响着应用程序的运行效率。正因为如此，人们在SQL语句的优化上投入了很大的精力，出现了许多SQL语句优化工具。随着人工智能等相关技术的日益成熟, 肯定还会有更多更好的工具出现，这将会给开发人员提供更多的帮助。

分表是分散数据库压力的好方法。

分表，最直白的意思，就是将一个表结构分为多个表，然后，可以再同一个库里，也可以放到不同的库。

当然，首先要知道什么情况下，才需要分表。个人觉得单表记录条数达到百万到千万级别时就要使用分表了。

分表的分类

1、纵向分表

将本来可以在同一个表的内容，人为划分为多个表。（所谓的本来，是指按照关系型数据库的第三范式要求，是应该在同一个表的。）

分表理由：根据数据的活跃度进行分离，（因为不同活跃的数据，处理方式是不同的）

案例：

对于一个博客系统，文章标题，作者，分类，创建时间等，是变化频率慢，查询次数多，而且最好有很好的实时性的数据，我们把它叫做冷数据。而博客的浏览量，回复数等，类似的统计信息，或者别的变化频率比较高的数据，我们把它叫做活跃数据。所以，在进行数据库结构设计的时候，就应该考虑分表，首先是纵向分表的处理。

这样纵向分表后：

首先存储引擎的使用不同，冷数据使用MyIsam 可以有更好的查询数据。活跃数据，可以使用Innodb ,可以有更好的更新速度。

其次，对冷数据进行更多的从库配置，因为更多的 *** 作时查询，这样来加快查询速度。对热数据，可以相对有更多的主库的横向分表处理。

其实，对于一些特殊的活跃数据，也可以考虑使用memcache ,redis之类的缓存，等累计到一定量再去更新数据库。或者mongodb 一类的nosql 数据库，这里只是举例，就先不说这个。

2、横向分表

字面意思，就可以看出来，是把大的表结构，横向切割为同样结构的不同表，如，用户信息表，user_1,user_2等。表结构是完全一样，但是，根据某些特定的规则来划分的表，如根据用户ID来取模划分。

分表理由：根据数据量的规模来划分，保证单表的容量不会太大，从而来保证单表的查询等处理能力。

案例：同上面的例子，博客系统。当博客的量达到很大时候，就应该采取横向分割来降低每个单表的压力，来提升性能。例如博客的冷数据表，假如分为100个表，当同时有100万个用户在浏览时，如果是单表的话，会进行100万次请求，而现在分表后，就可能是每个表进行1万个数据的请求（因为，不可能绝对的平均，只是假设），这样压力就降低了很多很多。

延伸：为什么要分表和分区？

日常开发中我们经常会遇到大表的情况，所谓的大表是指存储了百万级乃至千万级条记录的表。这样的表过于庞大，导致数据库在查询和插入的时候耗时太长，性能低下，如果涉及联合查询的情况，性能会更加糟糕。分表和表分区的目的就是减少数据库的负担，提高数据库的效率，通常点来讲就是提高表的增删改查效率。

什么是分表？

分表是将一个大表按照一定的规则分解成多张具有独立存储空间的实体表，我们可以称为子表，每个表都对应三个文件，MYD数据文件，MYI索引文件，frm表结构文件。这些子表可以分布在同一块磁盘上，也可以在不同的机器上。app读写的时候根据事先定义好的规则得到对应的子表名，然后去 *** 作它。

什么是分区？

分区和分表相似，都是按照规则分解表。不同在于分表将大表分解为若干个独立的实体表，而分区是将数据分段划分在多个位置存放，可以是同一块磁盘也可以在不同的机器。分区后，表面上还是一张表，但数据散列到多个位置了。app读写的时候 *** 作的还是大表名字，db自动去组织分区的数据。

MySQL分表和分区有什么联系呢？

1、都能提高mysql的性高，在高并发状态下都有一个良好的表现。

2、分表和分区不矛盾，可以相互配合的，对于那些大访问量，并且表数据比较多的表，我们可以采取分表和分区结合的方式（如果merge这种分表方式，不能和分区配合的话，可以用其他的分表试），访问量不大，但是表数据很多的表，我们可以采取分区的方式等。

3、分表技术是比较麻烦的，需要手动去创建子表，app服务端读写时候需要计算子表名。采用merge好一些，但也要创建子表和配置子表间的union关系。

4、表分区相对于分表， *** 作方便，不需要创建子表。

我们知道对于大型的互联网应用，数据库单表的数据量可能达到千万甚至上亿级别，同时面临这高并发的压力。Master-Slave结构只能对数据库的读能力进行扩展，写 *** 作还是集中在Master中，Master并不能无限制的挂接Slave库，如果需要对数据库的吞吐能力进行进一步的扩展，可以考虑采用分库分表的策略。

1、分表

在分表之前，首先要选中合适的分表策略（以哪个字典为分表字段，需要将数据分为多少张表），使数据能够均衡的分布在多张表中，并且不影响正常的查询。在企业级应用中，往往使用org_id(组织主键)做为分表字段，在互联网应用中往往是userid。在确定分表策略后，当数据进行存储及查询时，需要确定到哪张表里去查找数据，

数据存放的数据表 = 分表字段的内容 % 分表数量

2、分库

分表能够解决单表数据量过大带来的查询效率下降的问题，但是不能给数据库的并发访问带来质的提升，面对高并发的写访问，当Master无法承担高并发的写入请求时，不管如何扩展Slave服务器，都没有意义了。我们通过对数据库进行拆分，来提高数据库的写入能力，即所谓的分库。分库采用对关键字取模的方式，对数据库进行路由。

数据存放的数据库=分库字段的内容%数据库的数量

3、即分表又分库

数据库分表可以解决单表海量数据的查询性能问题，分库可以解决单台数据库的并发访问压力问题。

当数据库同时面临海量数据存储和高并发访问的时候，需要同时采取分表和分库策略。一般分表分库策略如下：

中间变量 = 关键字%（数据库数量单库数据表数量）

库 = 取整（中间变量/单库数据表数量）

表 = （中间变量%单库数据表数量）

实例：

1、分库分表

很明显，一个主表（也就是很重要的表，例如用户表）无限制的增长势必严重影响性能，分库与分表是一个很不错的解决途径，也就是性能优化途径，现在的案例是我们有一个1000多万条记录的用户表members,查询起来非常之慢，同事的做法是将其散列到100个表中，分别从members0到members99，然后根据mid分发记录到这些表中，牛逼的代码大概是这样子：

复制代码代码如下:

<php

for($i=0;$i< 100; $i++ ){

//echo "CREATE TABLE db2members{$i} LIKE db1members

echo "INSERT INTO members{$i} SELECT FROM members WHERE mid%100={$i}

}

2、不停机修改mysql表结构

同样还是members表，前期设计的表结构不尽合理，随着数据库不断运行，其冗余数据也是增长巨大，同事使用了下面的方法来处理：

先创建一个临时表：

/创建临时表/

CREATE TABLE members_tmp LIKE members

然后修改members_tmp的表结构为新结构，接着使用上面那个for循环来导出数据，因为1000万的数据一次性导出是不对的，mid是主键，一个区间一个区间的导，基本是一次导出5万条吧，这里略去了

接着重命名将新表替换上去：

/这是个颇为经典的语句哈/

RENAME TABLE members TO members_bak,members_tmp TO members;

就是这样，基本可以做到无损失，无需停机更新表结构，但实际上RENAME期间表是被锁死的，所以选择在线少的时候 *** 作是一个技巧。经过这个 *** 作，使得原先8G多的表，一下子变成了2G多。

当数据库里某张表上有大量插入 *** 作时，需要在表上做 RUNSTATS 命令保证数据库掌握准确的统计信息。

当数据库里某张表中的记录变化很大时（大量插入、删除、更新 *** 作），需要在表上做 REORG 和 RUNSTATS 一组维护 *** 作来优化查询的性能。有的表，可能初始化后从来都不会有数据量变化，就只需要做一次维护；有的表，一天之内的变化就很大，每天需要做多次维护。

注意，针对数据库对象的大量 *** 作，如反复地删除表，存储过程，会引起系统表中数据的频繁改变，在这种情况下，也要考虑对系统表进行REORG *** 作。

一个完整的 REORG 表的过程应该是由下面的步骤组成的：

RUNSTATS -> REORGCHK -> REORG -> RUNSTATS -> BIND 或 REBIND

0 执行下面命令前要先连接数据库

1 RUNSTATS

由于在第二步中 REORGCHK 时可以对指定的表进行 RUNSTATS *** 作(在 REORGCHK 时指定 UPDATE STATISTICS)，所以第一步是可以省略的。如果知道哪些特点的表有数据变化，又可以只执行第一步而省略第二步。

如果表名为 DB2INST1STAFF，表上有索引，可以执行下面的 RUNSTATS *** 作：

db2 runstats on table db2inst1staff with distribution and detailed indexes all

2 REORGCHK

REORGCHK是根据统计公式计算表是否需要重整。

对于每个表有3个统计公式，对索引有5个统计公式(版本8)，如果公式计算结果该表需重整，在输出的 REORG 字段中相应值为，否则为-。

如果数据库中数据量比较大，在生产系统上要考虑 REORGCHK 的执行时间可能较长，需安排在非交易时间执行。

可以分为对系统表和用户表两部分分别进行 REORGCHK：

1) 针对系统表进行REORGCHK

db2 reorgchk update statistics on table system

使用 UPDATE STATISTICS 参数指定数据库首先执行 RUNSTATS 命令。

2) 针对用户表进行 REORGCHK

db2 reorgchk update statistics on table user

根据统计公式的计算结果（是否有），考虑是否必要对表进行 REORG。注意，某些小表的结果可能由于统计信息过少而不准确。

3 REORG TABLE

执行 REORG 可以考虑分为表上有索引和没有索引两种情况：

1) 如果表上有索引

如表名为 DB2INST1STAFF，索引名为 DB2INST1STAFF，

REORG 表：

db2 reorg table db2inst1staff index db2inst1istaff use tempspace1

建议 REORG 时可以使用USE参数指定数据重排时使用的临时表空间。如果不指定， REORG 工作将会在表所在表空间中原地执行。

如果表上有多个索引，INDEX 参数值请使用最为重要的索引名。

REORG 索引：

db2 reorg indexes all for table db2inst1staff

2) 如果表上没有索引

如表名为DB2INST1STAFF, SYSIBMSYSTABLES

db2 reorg table db2inst1staff use tempspace1

db2 reorg table sysibmsystables use tempspace1

4 RUNSTATS

参见步骤 1。

5 (可选) 上面命令完成后可以重复第二步，检查 REORG 的结果，如果需要，可以再次执行 REORG 和 RUNSTATS 命令。

6 BIND 或 REBIND

RUNSTATS 命令运行后，应对数据库中的 PACKAGE 进行重新联编，简单地，可以使用 db2rbind 命令来完成。

例如，如果数据库名为 SAMPLE，执行：

db2rbind sample -l db2rbindout

以上就是关于IT培训分享大规模数据库的性能和伸缩性的优化全部的内容，包括:IT培训分享大规模数据库的性能和伸缩性的优化、mysql数据库的优化方法、Java批量数据库 *** 作,如何性能优化等相关内容解答，如果想了解更多相关内容，可以关注我们，你们的支持是我们更新的动力！

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/sjk/9294859.html

IT培训分享大规模数据库的性能和伸缩性的优化

发表评论

评论列表（0条）