分表是分散数据库压力的好方法。
分表,最直白的意思,就是将一个表结构分为多个表,然后,可以再同一个库里,也可以放到不同的库。
当然,首先要知道什么情况下,才需要分表。个人觉得单表记录条数达到百万到千万级别时就要使用分表了。
分表的分类
1、纵向分表
将本来可以在同一个表的内容,人为划分为多个表。(所谓的本来,是指按照关系型数据库的第三范式要求,是应该在同一个表的。)
分表理由:根据数据的活跃度进行分离,(因为不同活跃的数据,处理方式是不同的)
案例:
对于一个博客系统,文章标题,作者,分类,创建时间等,是变化频率慢,查询次数多,而且最好有很好的实时性的数据,我们把它叫做冷数据。而博客的浏览量,回复数等,类似的统计信息,或者别的变化频率比较高的数据,我们把它叫做活跃数据。所以,在进行数据库结构设计的时候,就应该考虑分表,首先是纵向分表的处理。
这样纵向分表后:
首先存储引擎的使用不同,冷数据使用MyIsam 可以有更好的查询数据。活跃数据,可以使用Innodb ,可以有更好的更新速度。
其次,对冷数据进行更多的从库配置,因为更多的 *** 作时查询,这样来加快查询速度。对热数据,可以相对有更多的主库的横向分表处理。
其实,对于一些特殊的活跃数据,也可以考虑使用memcache ,redis之类的缓存,等累计到一定量再去更新数据库。或者mongodb 一类的nosql 数据库,这里只是举例,就先不说这个。
2、横向分表
字面意思,就可以看出来,是把大的表结构,横向切割为同样结构的不同表,如,用户信息表,user_1,user_2等。表结构是完全一样,但是,根据某些特定的规则来划分的表,如根据用户ID来取模划分。
分表理由:根据数据量的规模来划分,保证单表的容量不会太大,从而来保证单表的查询等处理能力。
案例:同上面的例子,博客系统。当博客的量达到很大时候,就应该采取横向分割来降低每个单表的压力,来提升性能。例如博客的冷数据表,假如分为100个表,当同时有100万个用户在浏览时,如果是单表的话,会进行100万次请求,而现在分表后,就可能是每个表进行1万个数据的请求(因为,不可能绝对的平均,只是假设),这样压力就降低了很多很多。
延伸:为什么要分表和分区?
日常开发中我们经常会遇到大表的情况,所谓的大表是指存储了百万级乃至千万级条记录的表。这样的表过于庞大,导致数据库在查询和插入的时候耗时太长,性能低下,如果涉及联合查询的情况,性能会更加糟糕。分表和表分区的目的就是减少数据库的负担,提高数据库的效率,通常点来讲就是提高表的增删改查效率。
什么是分表?
分表是将一个大表按照一定的规则分解成多张具有独立存储空间的实体表,我们可以称为子表,每个表都对应三个文件,MYD数据文件,MYI索引文件,frm表结构文件。这些子表可以分布在同一块磁盘上,也可以在不同的机器上。app读写的时候根据事先定义好的规则得到对应的子表名,然后去 *** 作它。
什么是分区?
分区和分表相似,都是按照规则分解表。不同在于分表将大表分解为若干个独立的实体表,而分区是将数据分段划分在多个位置存放,可以是同一块磁盘也可以在不同的机器。分区后,表面上还是一张表,但数据散列到多个位置了。app读写的时候 *** 作的还是大表名字,db自动去组织分区的数据。
MySQL分表和分区有什么联系呢?
1、都能提高mysql的性高,在高并发状态下都有一个良好的表现。
2、分表和分区不矛盾,可以相互配合的,对于那些大访问量,并且表数据比较多的表,我们可以采取分表和分区结合的方式(如果merge这种分表方式,不能和分区配合的话,可以用其他的分表试),访问量不大,但是表数据很多的表,我们可以采取分区的方式等。
3、分表技术是比较麻烦的,需要手动去创建子表,app服务端读写时候需要计算子表名。采用merge好一些,但也要创建子表和配置子表间的union关系。
4、表分区相对于分表, *** 作方便,不需要创建子表。
我们知道对于大型的互联网应用,数据库单表的数据量可能达到千万甚至上亿级别,同时面临这高并发的压力。Master-Slave结构只能对数据库的读能力进行扩展,写 *** 作还是集中在Master中,Master并不能无限制的挂接Slave库,如果需要对数据库的吞吐能力进行进一步的扩展,可以考虑采用分库分表的策略。
1、分表
在分表之前,首先要选中合适的分表策略(以哪个字典为分表字段,需要将数据分为多少张表),使数据能够均衡的分布在多张表中,并且不影响正常的查询。在企业级应用中,往往使用org_id(组织主键)做为分表字段,在互联网应用中往往是userid。在确定分表策略后,当数据进行存储及查询时,需要确定到哪张表里去查找数据,
数据存放的数据表 = 分表字段的内容 % 分表数量
2、分库
分表能够解决单表数据量过大带来的查询效率下降的问题,但是不能给数据库的并发访问带来质的提升,面对高并发的写访问,当Master无法承担高并发的写入请求时,不管如何扩展Slave服务器,都没有意义了。我们通过对数据库进行拆分,来提高数据库的写入能力,即所谓的分库。分库采用对关键字取模的方式,对数据库进行路由。
数据存放的数据库=分库字段的内容%数据库的数量
3、即分表又分库
数据库分表可以解决单表海量数据的查询性能问题,分库可以解决单台数据库的并发访问压力问题。
当数据库同时面临海量数据存储和高并发访问的时候,需要同时采取分表和分库策略。一般分表分库策略如下:
中间变量 = 关键字%(数据库数量单库数据表数量)
库 = 取整(中间变量/单库数据表数量)
表 = (中间变量%单库数据表数量)
实例:
1、分库分表
很明显,一个主表(也就是很重要的表,例如用户表)无限制的增长势必严重影响性能,分库与分表是一个很不错的解决途径,也就是性能优化途径,现在的案例是我们有一个1000多万条记录的用户表members,查询起来非常之慢,同事的做法是将其散列到100个表中,分别从members0到members99,然后根据mid分发记录到这些表中,牛逼的代码大概是这样子:
复制代码 代码如下:
<php
for($i=0;$i< 100; $i++ ){
//echo "CREATE TABLE db2members{$i} LIKE db1members
";
echo "INSERT INTO members{$i} SELECT FROM members WHERE mid%100={$i}
";
}
>
2、不停机修改mysql表结构
同样还是members表,前期设计的表结构不尽合理,随着数据库不断运行,其冗余数据也是增长巨大,同事使用了下面的方法来处理:
先创建一个临时表:
/创建临时表/
CREATE TABLE members_tmp LIKE members
然后修改members_tmp的表结构为新结构,接着使用上面那个for循环来导出数据,因为1000万的数据一次性导出是不对的,mid是主键,一个区间一个区间的导,基本是一次导出5万条吧,这里略去了
接着重命名将新表替换上去:
/这是个颇为经典的语句哈/
RENAME TABLE members TO members_bak,members_tmp TO members;
就是这样,基本可以做到无损失,无需停机更新表结构,但实际上RENAME期间表是被锁死的,所以选择在线少的时候 *** 作是一个技巧。经过这个 *** 作,使得原先8G多的表,一下子变成了2G多。
select 学生表姓名,
家长表姓名,
家长表电话,
班级表班主任,
班级表人数
from 学生表,家长表,班级表
where 学生表学生编号=家长表学生编号
and 学生表班级编号=班级表班级编号
and 学生表姓名='小明' --这句不加可以查询全部学生
这个几乎所有数据库通用
根据《国家医疗保障局办公室关于贯彻执行15项医疗保障信息业务编码标准的通知》,为加快形成全国统一的医疗保障信息业务编码标准,现就做好国家医保编码的对码贯标工作紧急通知如下:
一、贯标产品
所有在省医药采购服务平台挂网采购的药品医用耗材(不含检测试剂),都需要开展对码贯标工作。
二、工作内容
对比国家医疗保障局编制的药品医用耗材信息表,查找与挂网药品、医用耗材相同的产品信息,选填对应的国家医保编码。
三、 *** 作方法
(一)药品贯标
1已挂网药品的贯标。药品生产企业登录“药品议价采购系统”,进入“基础数据库管理”-“产品信息维护”,勾选挂网药品后,点击“编辑医保代码”按钮,选择对应的药品关联医保药品代码,如未查询到相同的药品,勾选“暂未取得国家医保编码”,点击确定。
2申请挂网的新上市药品的贯标。药品生产企业登录“药品议价采购系统”,在“基础数据库管理”-“产品信息注册”,点击“新增”按钮,在“医保药品代码”中选择对应医保代码。
(二)医用耗材贯标
1已挂网医用耗材的贯标。耗材生产企业登录“医用耗材挂网交易系统”,进入“基础管理”-“国家医保代码贯标”菜单,选择单件进行关联或通过Excel导入方式进行关联。如未取得国家医保编码的,勾选“暂未取得国家医保编码” ,点击确定。
2申请挂网的新上市医用耗材的贯标。耗材生产企业登录“医用耗材挂网交易系统”,进入“基础管理”-“企业耗材信息上报”菜单,点击“新建”按钮,在“医保耗材分类代码”中选择对应医保代码。
(三)注意事项
如未查找到本企业挂网产品的医保编码,请登录国家医疗保障局官网,进入“医保业务编码标准动态维护”栏目进行维护,待取得医保编码后,后期再进入省医药采购服务平台进行贯标。
1、首先,创建一个测试,代码如下图所示,然后进入下一步。
2、其次,完成上述步骤后,插入测试数据,代码如下图所示,然后进入下一步。
3、接着,完成上述步骤后,查询表中的数据,代码如下图所示,然后进入下一步。
4、最后,完成上述步骤后,重新排序,获取最后一条记录并转到bbb字段的长度,如下图所示。这样,问题就解决了。
如果数据量小的表,这样的设计意义不大,而且当然是单表速度快。若在大数据量情况下,设计非常有意义。在多表连接中注意数据的条目和外健,避免出行大量冗余数据导致性能下降。下面我以Oracle讲讲数据查询的整个过程技术。
由于数据分布到数据块,在大量数据设计中可以将数据存储于多个数据块,在高并发进程的随机访问的情况下,能有效减少块冲突 同样的数据需要更多的数据块来存储,由于数据块的块头元信息大小固定,所以需要更多的空间来存储块头元信息。行长度过大容易导致行连接,从而导致Oracle获取数据块的效率降低 ,在行长度固定的前提下,单块能够存储更多的数据行,也就意味着Oracle一次I/O能读取更多的数据行。适合连续顺序读或者存放大对象数据(如LOB数据) 由于大数据块可以存放更多的索引叶节点信息,容易引起争用,所以大数据块不适合存放索引叶节点信息。
大量数据表的数据库参数设置DB_FILE_MULTIBLOCK_READ_COUNT表示Oracle一次顺序I/O读 *** 作最多能读取的数据块块数。该参数的默认值随 *** 作系统的不同而不同。在全表扫描或者索引快速扫描比较多的系统中(如DSS系统),建议将该值设置得较大。但是DB_FILE_MULTIBLOCK_READ_COUNT参数受 *** 作最大单次I/O大小的限制,大多数 *** 作系统单次读 *** 作的大小不能超过1MB,这也就意味着在8KB数据块大小的情况下,该参数最大值为128。值得一提的是,该参数的大小还会影响Oracle CBO对执行计划的评估,如果设成较大值,Oracle的执行计划倾向于全表扫描。当该参数设置为0或者保持默认时,CBO假设全表扫描时最多能连续读取8个数据块。从Oracle 11R2开始,DB_FILE_MULTIBLOCK_READ_COUNT的取值算法如下:
db_file_multiblock_read_count = min(1048576/db_block_size , db_cache_size/
(sessions db_block_size))
注意 数据库参数BLOCK_SIZE在设定之后,在数据库生命周期内不可更改。
当执行SELECT语句时,如果在内存里找不到相应的数据,就会从磁盘读取进而缓存至LRU末端(冷端),这个过程就叫物理读。当相应数据已在内存,就会逻辑读。我物理读是磁盘读,逻辑读是内存读;内存读的速度远比磁盘读来得快。
下面将本人大数据分区设计截图,为大家参考学习。
先贴俩图镇镇场。
引言
对于内连接,使用单个查询是有意义的,因为你只获得匹配的行。
对于左连接,多个查询要好得多。
数据说话
看看下面的基准测试:
5个连接的单个查询
一行5个查询
注意,我们在两种情况下得到了 相同的结果 (6 x 50 x 7 x 12 x 90 = 2268000)
总结一下
对于冗余数据,左连接使用更多的内存。
如果只执行两个表的连接,那么内存限制可能没有那么糟糕,但通常是三个或更多的表,因此值得进行不同的查询。
写在最后
用过Laravel吗?还记得 Eloquent ORM模型吗?
不知道有没有注意到,debug所打印出来的多表联合查询,
都是拆分为“单个表查询”,然后使用PHP处理的。
Happy coding :-)
是做表连接查询还是做分解查询要具体情况具体分析。
如果数据库的结构合理,索引设计得当,表连接的效率要高于分解查询。比如,在有外键的时候,数据库可以为外键建表并建立索引从而提升多个表连接查询的效率。另外,多表连接查询不需要把数据传输到应用程序中,直接在数据库端执行,这在很大程度上提升了效率。
但是多表连接也有一些缺点。多表连接对表结构的依存度很高,只要表结构出现变更就会同时对数据库检索和应用处理两个部分产生较大影响。另外,多表连接的兼容性不好,数据库不同SQL文也多少有些差异。而且采用分散数据库的时候,实现多表连接即麻烦又没有什么好处。因此,一些大型系统或者是支持多种类数据库的系统一般不会使用多表连接,而倾向于采用分解查询。
这个得看情况,一般数据不大的情况下多表连接查询和多次单表查询的效率差不多。如果数据量足够大,那肯定是多次单表查询的效率更高。在很多大的公司里面,都会禁用多表连接查询,原因就是一旦数据量足够大的时候多表连接查询效率会很慢,而且不利于分库分表的查询优化。那么看一下下面这个例子。
两种查询方式的比较我这里有一个数据库,我们拿里面的客户表和地区表做两种查询的对比。用户表数据是31万条,地区表3511条。
1 使用连表查询成都市的客户总数
2使用多次单表查询客户总数
可以看到,查询出来的结果都是一样,但是第一种的连表查询用了067秒中,而第二种多次单表查询一共用时014秒。这个对比已经是很明显了吧。
虽然这只是一个很简单的例子,但是对比结果是非常明显的。在实际应用中可能会更复杂、数据更多,如果还使用连表查询时非常慢的,而且还消耗服务器资源。
所以现在在很多大了公司明确要求禁止使用join查询,比如阿里、腾讯就明确规定禁用三表以上的join查询。
总结一下,单表查询的优点1 多次单表查询,让缓存的效率更高。
许多应用程序可以方便地缓存单表查询对应的结果对象。另外对于MySQL的查询缓存来说,如果关联中的某个表发生了变化,那么就无法使用查询缓存了,而拆分后,如果某个表很少改变,那么基于该表的查询就可以重复利用查询缓存结果了。
2 将查询分解后,执行单个查询可以减少锁的竞争。
3 在应用层做关联,更容易对数据库进行拆分,更容易做到高性能和可扩展。
4 查询本身效率也可能会有所提升。
5 可以减少冗余记录的查询。
6 在应用中实现了哈希关联,而不是使用MySQL的嵌套环关联,某些场景哈希关联的效率更高很多。
7 单表查询有利于后期数据量大了分库分表,如果联合查询的话,一旦分库,原来的sql都需要改动。
8 很多大公司明确规定禁用join,因为数据量大的时候查询确实很慢
所以在数据量不大的情况下,两种方式的查询都没什么明显的差别,使用多表连接查询更方便。但是在数据量足够大几十万、几百万甚至上亿的数据,或者在一些高并发、高性能的应用中,一般建议使用单表查询。
如果觉得笨猫的回答对你有用,点个关注,非常感谢。
做java的,在orm框架下,分解查询是最符合面向对象 *** 作的,挺支持分解查询的(拙见)
先说结论:不一定。
多表查询效率低的时候,可以考虑拆解sql成多个小的sql,至于效率是否一定会提高,这个还不一定,具体问题具体问题。当多表查询效率低的时候,拆解成单个小sql,这只是一个可能的思路,起不起作用,不一定。
sql是一个很复杂的东西,sql引擎会分析执行计划,并可能按照他认为最优的执行计划执行sql,但他认为的也不一定是正确的。不同的sql执行计划不一样,所以很难断定sql拆解或者合并的效率。
说了这么多,那到底是多表联合查询还是拆解呢?有没有一个原则? 有!如果你确定你的单个sql的执行效率比较快,当然可以写多个单个sql。当然了,具备这个能力需要你对数据库足够了解,比如什么时候走索引,什么时候nested loop等等。如果你现在的多表联合查询比较慢,你需要找出来慢的原因,并分析拆解后的sql的执行计划,看是否避免了多表联合查询的效率问题。
总之吧。这个问题,只能给你一个大体的思路,因为牵扯到很多基础问题,我觉得最起码sql执行计划应该需要了解,一个sql可能的执行计划有几十中,复杂sql的执行计划又是这几十种的组合。哪种效率低,哪种效率高应该有个大体了解。
多表查询可以很快,也可以很慢。主要看执行计划。
单次肯定是多表连接查询的效率高,但多次单表查询的吞吐量高,而且容易优化,例如分库分表,使用缓存减少DB访问次数等等,所以在大数据量高并发场景通常使用多次单表查询的方式。另外,不管是单表还是多表连接查询,SQL的执行时间和数据量、并发量都有很大关系,和扫描的数据行数也很有关系。如果一条SQL,平时执行一次要2秒,10个并发时,系统可能一点问题都没有,1000个并发时,数据库可能就被拖死了。我们组之前碰到过好几次这种问题,一张只有几万条数据的表,因为忘记加索引,平时执行只有几百毫秒,高峰期直接飙到几十秒,DB差点被拖垮。
单纯从效率来讲,join的表不太多时,join效率比较高。但是占用的主要是数据库服务器的资源。数据库资源又是个瓶颈,不易横向扩展。所以在数据量大的时候,我们会采用单表查询,把循环和匹配等大量工作移到应用服务器上。应用服务器容易扩展,对并发支持更好。
当数据量大到千万级以上,就建议尽可能减少join,鼓励使用单表查询。查询优化比较容易。这时候使用join的一个大型查询就可能花很久,对其他查询造成阻塞,导致服务不可用。
当考虑单表查询后,就会衍生一系列的策略,比如冷热数据分离,将热数据和 历史 数据分离,大幅降低数据量级以提高热数据查询性能,并可以使用内存缓存。这样又促使你考虑引入微服务架构。
总结,数据量小,查询并发少,那么使用join的性能是可控的,开发成本低。当数量级上升到千万级且不断增加,尽早考虑向单表查询切换,否则可能有性能下降会导致系统奔溃。而且性能下降不是线性的,会陡降。
取第4列的数据时,知道第4列的字段名就可以。
数据库查询一个表的第三行第四列的步骤是:首先select t列的字段名from,然后twhere tNo=4,最后就可以查询了。
数据库的作用是实现数据共享、减少数据冗余、实现数据独立性等。
以上就是关于MySQL数据库性能优化之分区分表分库全部的内容,包括:MySQL数据库性能优化之分区分表分库、数据库多表查询语句怎么写紧急!、数据库医生查询表的信息代码怎么填等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)