数据准备:
学生表 Student:
科目表 Course
教师表 Teacher
成绩表 SC
45题预览:
题目
1.查询" 01 "课程比" 02 "课程成绩高的学生的信息及课程分数
1.1 查询同时存在" 01 "课程和" 02 "课程的情况
1.2 查询存在" 01 "课程但可能不存在" 02 "课程的情况(不存在时显示为 null ) 1.3 查询不存在" 01 "课程但存在" 02 "课程的情况
2.查询平均成绩大于等于 60 分的同学的学生编号和学生姓名和平均成绩
3.查询在 SC 表存在成绩的学生信息
4.查询所有同学的学生编号、学生姓名、选课总数、所有课程的总成绩(没成绩的显示为 null )
4.1 查有成绩的学生信息
5.查询「李」姓老师的数量
6.查询学过「张三」老师授课的同学的信息
7.查询没有学全所有课程的同学的信息
8.查询至少有一门课与学号为" 01 "的同学所学相同的同学的信息
9.查询和" 01 "号的同学学习的课程 完全相同的其他同学的信息
10.查询没学过"张三"老师讲授的任一门课程的学生姓名
11.查询两门及其以上不及格课程的同学的学号,姓名及其平均成绩
12.检索" 01 "课程分数小于 60,按分数降序排列的学生信息
13.按平均成绩从高到低显示所有学生的所有课程的成绩以及平均成绩
14.查询各科成绩最高分、最低分和平均分: 以如下形式显示:课程 ID,课程 name,最高分,最低分,平均分,及格率,中等率,优良率,优秀率 及格为>=60,中等为:70-80,优良为:80-90,优秀为:>=90 要求输出课程号和选修人数,查询结果按人数降序排列,若人数相同,按课程号升序排列
15.按各科成绩进行排序,并显示排名, Score 重复时保留名次空缺 15.1 按各科成绩进行排序,并显示排名, Score 重复时合并名次
16.查询学生的总成绩,并进行排名,总分重复时保留名次空缺 16.1 查询学生的总成绩,并进行排名,总分重复时不保留名次空缺
17.统计各科成绩各分数段人数:课程编号,课程名称,[100-85],[85-70],[70-60],[60-0] 及所占百分比
18.查询各科成绩前三名的记录
19.查询每门课程被选修的学生数
20.查询出只选修两门课程的学生学号和姓名
21.查询男生、女生人数
22.查询名字中含有「风」字的学生信息
23.查询同名同性学生名单,并统计同名人数
24.查询 1990 年出生的学生名单
25.查询每门课程的平均成绩,结果按平均成绩降序排列,平均成绩相同时,按课程编号升序排列
26.查询平均成绩大于等于 85 的所有学生的学号、姓名和平均成绩
27.查询课程名称为「数学」,且分数低于 60 的学生姓名和分数
28.查询所有学生的课程及分数情况(存在学生没成绩,没选课的情况)
29.查询任何一门课程成绩在 70 分以上的姓名、课程名称和分数
30.查询不及格的课程
31.查询课程编号为 01 且课程成绩在 80 分以上的学生的学号和姓名
32.求每门课程的学生人数
33.假设成绩不重复,查询选修「张三」老师所授课程的学生中,成绩最高的学生信息及其成绩
34.假设成绩有重复的情况下,查询选修「张三」老师所授课程的学生中,成绩最高的学生信息及其成绩
35.查询不同课程成绩相同的学生的学生编号、课程编号、学生成绩
36.查询每门功成绩最好的前两名
37.统计每门课程的学生选修人数(超过 5 人的课程才统计)。
38.检索至少选修两门课程的学生学号
39.查询选修了全部课程的学生信息
40.查询各学生的年龄,只按年份来算
41.按照出生日期来算,当前月日 <出生年月的月日则,年龄减一
42.查询本周过生日的学生
43.查询下周过生日的学生
44.查询本月过生日的学生
45.查询下月过生日的学生
详细
1.查询" 01 "课程比" 02 "课程成绩高的学生的信息及课程分数
理清思路:
(1)学生信息和课程分数分布对应于student表和sc表
所以,我们需要把它们关联起来
(2)需要比较同一学生的不同成绩,所以需要再关联成绩表sc
(3)利用where进行筛选
1.1 查询同时存在" 01 "课程和" 02 "课程的情况
?什么叫做同时存在‘01‘和’02‘课程
?这里是指cid=’01‘ and cid ='02'?
理清思路:同一个学生既选了01课程,又选了02课程
1.2 查询存在" 01 "课程但可能不存在" 02 "课程的情况(不存在时显示为 null )
?如何让不存在某课程时显示为null
利用左关联(left join)
?case when--no
1.3 查询不存在" 01 "课程但存在" 02 "课程的情况
思路:找到不存在01课程的记录后,
然后再进行关联(Inner join)找存在02的课程
或者
2.查询平均成绩大于等于 60 分的同学的学生编号和学生姓名和平均成绩
思路:
成绩在sc表,学生姓名在student表,二者可以通过学生编号sid进行关联。
首先,从sc表中查询平均成绩大于60的学生的信息
ERROR 1111 (HY000): Invalid use of group function
出现这个错就要往group by这里考虑,要记得:group by +having+聚合函数。
一些错误尝试:
成功查询:
接着:通过学生编号sid与student表进行关联
发现结果明显不对,
继续修改:
注意:多个表进行关联时要明确字段的归属表;查询聚合函数的结果时,比如avg(score),最好进行重命名。
存在疑问:
上面两种写法的差别就在于 子查询的avg(score)是否重命名,但是二者的结果明显有差异,想请问是为什么?是不是哪里没注意到?
解答:
mysql对于group by的特殊规定:
如果用了group by,select语句里除了group by后面跟着的列名以外,只能有聚合函数。
如果除了group by后面跟着的列名和聚合函数还有其他列名,sql就会只输出第一行,而且如果是'*',也会只输出第一行记录。
举例说明:
总结:
如果用了group by +聚合函数,那么在查询的时候最好是只查询聚合函数(+group by 后的列名)避免在查询其余字段时只显示一条记录的情况。
注意:聚合函数是一定要查询的。
3.查询在 SC 表存在成绩的学生信息
思路:
(1)首先确定表:sc表和student表
发现名字有重复,
(2)利用group by sid去除重复的学生信息查询,具体如下:
注意:更严谨的写法:
(1)先写查询分组字段的子查询
(2)将(1)中的字段进行嵌套查询
注意:group by是分开写的
4.查询所有同学的学生编号、学生姓名、选课总数、所有课程的总成绩(没成绩的显示为 null
(1)确定涉及的表的范围:
student,sc
(2)
思路:
修改:
(2)
(3)
也可以考虑先连接在查询,但还是建议上述这种方式。
4.1 查有成绩的学生信息
(1)首先确定使用的表范围
sc和student
(2)首先获得成绩表上的学生id
(3)根据id去查学生信息
?这个和第三题是完全一样的吗
回答:思路基本一致。
参考答案:
思路是:看学生表上的id是否在sc表的id中(即,判断存在)in/exists
5.查询「李」姓老师的数量
6.查询学过「张三」老师授课的同学的信息
(1)四张表都要用到
(2)四个嵌套
有什么简便方法吗?
回答:参考答案也是逐步嵌套查询实现的。
7.查询没有学全所有课程的同学的信息
(1)关键词:‘所有课程’在course表,‘同学信息’在student表,但是二者需要sid进行关联,所以还需要用到sc表
(2)如何筛选'所有课程’??
利用课程数目来进行限定。
a.course表获取总课程数
b.按照sid分组,对sc表中的课程数进行计数
c.接着从sc中筛选出课程数=3的学生sid
d.查询(3)中对应学生sid的学生信息
8.查询至少有一门课与学号为" 01 "的同学所学相同的同学的信息
(1)关键词:
‘至少有一门课’--课程in学号01同学的课程,‘学号01同学的课程’--course表,‘同学信息’--student表
(2)思路:
a. 01同学学习了什么课程
发现01同学三门课程都学了,所以其余学生只要学习的课程数大于0即可。
b. 学号01之外的学生id有哪些
c. 如何查询其余学生的课程信息,比如cid?
利用其余学生的id进行分组再计数,筛选
出次数大于0的学生id,再根据该id进行学生信息的查询。
9.查询和" 01 "号的同学学习的课程 完全相同的其他同学的信息
(1)确定相关表:
’01号同学学习的课程‘-sc表;
’其他同学的信息‘-student表;
(2)思路:
a. 01号同学学习了哪些课程
发现01同学学了三门课,
b.再查询总共有几门课?
所以,总共有3门课,01同学全部学习了,
c. 查询其余学生中学习课程数目为3的学生id
d. 再跟进相应id在student表中查询学生信息
10.查询没学过"张三"老师讲授的任一门课程的学生姓名
(1)确定相关表:
‘张三老师tid’--teacher;
‘张三老师授课cid’--course;
‘被授课的学生sid’--sc;
‘学生姓名sname’--student;
先找出学习过张三老师课程的学习,再not in即可。
(2)思路:
a.从teacher表中查询张三老师的tid
b.从course表中查询张三老师的授课cid
c. 从sc中查询学习cid=02的学生sid
d.利用not in 查询没学过张三老师课程的学生信息
11.查询两门及其以上不及格课程的同学的学号,姓名及其平均成绩
(1)根据关键字确定相关表:
‘不及格课程数>2’ score<60--sc表,且count(1)>3
'姓名'--student 表
(2)思路:
a. 从sc表查询score小于60的sid,并根据sid分组计数
b.内连接得到不及格课程数目大于等于2的sid,sname以及avg_score
12.检索" 01 "课程分数小于 60,按分数降序排列的学生信息
(1)根据关键词确定相关表:
‘01课程分数小于60’ --sc表
‘学生信息’--student
(2)思路及实现:
a.先从sc表查询01课程分数小于60并按分数降序排列的学生信息
b.根据(1)中的sid从student中查询学生信息
13.按平均成绩从高到低显示所有学生的所有课程的成绩以及平均成绩
(1)根据关键词确定相关表
‘平均成绩’--sc表
(2)思路及实现过程:
a. 先按照平均成绩从高到低显示学生sc
还要显示每个学生的每一科目的成绩吗?
回答:是的,给sc表增加一列avg_score。
14.查询各科成绩最高分、最低分和平均分: 以如下形式显示:课程 ID,课程 name,最高分,最低分,平均分,及格率,中等率,优良率,优秀率 及格为>=60,中等为:70-80,优良为:80-90,优秀为:>=90 要求输出课程号和选修人数,查询结果按人数降序排列,若人数相同,按课程号升序排列
(1)根据关键词确定相关表:
‘成绩’ --sc;
‘课程name’--course;
(2)思路及实现:
a. 按照cid对sc表进行分组,并进行初步聚合函数的查询
b.继续完善
?如何计算各种率
回答:考察条件计数的技巧 case when
修改成题目要求格式:
15.按各科成绩进行排序,并显示排名, Score 重复时保留名次空缺
(1)根据关键词确定相关表:
sc表
(2)思路:
借助赋值变量@i实现
a.原始数据增加一列@rank
b.
没有指定关联条件的inner join (笛卡尔积),每一行都会与之进行关联
注意:
前言
案例取自极客时间《mysql45讲》
案例
模拟执行器分析查询语句
场景复现
奇了怪了,此时没用索引,进行了全表扫描
虽然使用了索引,但是还是扫描了37116行,不妨结合之前的知识分析一下:
1.另一个事务未提交,需要保存之前的数据的数据版本,因此delete10万行数据实际是标记数据,这样每一行数据就有两个数据版本,旧的是delete之前的,新的是标记为delete的,索引a上的数据有两份
2.那还多出来的1万7呢,之前介绍过索引树的叶子节点存的是主键,select * 还要进行回表查询,这里将回表的扫描行数一并算上
为什么会选错索引
选择索引是优化器的工作,优化器要找到最优的执行方案并选择最小的代价去执行,扫描行数是影响执行代价之一(扫描越小,访问磁盘次数越少,消耗CPU资源越少)
mysql执行语句之前需要通过根据信息来统计记录数
这个统计信息就是索引的区分度,即索引上不同的值越多,区分度越高越好(show index t 的 cardinality字段查看),索引的区分度是利用采样统计得到的即取小部分统计信息再乘以整体。
除了使用统计信息,还会计算回表代价(主键不需要回表)
如果是统计信息不对那就修正
另一种场景复现
按理说这是个空集,利用索引a只扫描1000行,利用索引b要扫描50000行,这里优化器竟然选择了索引b!!
mysql又选错了索引
解决办法
2.引导使用a索引
我们知道索引树上的数据是有序的,优化器使用b索引,一方面是认为索引b可以避免排序 ,order by a,b强制按照a,b排序意味着两个都需要排序,因此扫描行数成了影响决策的主要条件
3.删掉索引b
解决mysql选错索引主要有两大方向
1.强制指定索引
2.干涉优化器选择(比如增大limit数量,增加order by ,写成子查询)
MySQL选错索引导致的线上慢查询事故
mysql中走与不走索引的情况汇集(待全量实验)
众所周知, MySQL的驱动表与被驱动表是优化器自动优化选择的结果 (与表连接的前后顺序等无关),我们可以用explain执行计划来知晓:
如上所示,前面一行t1是驱动表,后面一行t2是被驱动表。那么驱动表与被驱动表的选择是否有规律可循呢?下面是百度搜索两个主流的博文对驱动表与被驱动表的阐释:
1. MySQL连接查询驱动表被驱动表以及性能优化 - 阿伟~ - 博客园 博文A 主要结论:
2. mysql驱动表与被驱动表及join优化_java小小小黑的博客-CSDN博客_mysql驱动表和被驱动表 博文B 其主要结论:
两个帖子的结论是都差不多,而且还给出了例子来佐证。那么网上的结论是否权威?是否有普遍性?是否存在缺陷?
让我们来一起打破砂锅问到底。下面有两张表结构一模一样的表t1,t2:其中t1 100条数据,t2 1000条数据;t1(t2)结构如下:
按照上面博文的结论,left join左边是t2表,应该是驱动表。我们查看下结果:
与 博文B 中观点1相违背(同理观点2也违背),与实际不符,但究竟这是为什么呢?
下面发一张MySQL的执行过程(来源于《MySQL实战45讲》中01讲【一条SQL查询语句是如何执行的】)
so die si ne,原来sql执行的过程是这样呀。等等,不对,这跟刚才SQL又有什么关系,上面left join中t2表还是左边的呀。
我们知道MySQL高版本的性能越来越好,它是不断进行优化迭代的。远古的mysql版本可能还需要人工把小表放在前面,大表放在后面等这些需要人工调优的经验早就已经被解决了。也就是说我们写的语句,MySQL为了追求更好的效率,它在执行器执行前已经帮我们优化了。那么实际优化后的sql如何查看呢?用show warning命令:
其中Message就是优化后实际执行的sql语句,格式化后如下:
优化后left join左连接变成了内连接(inner) join。所以用优化后的sql看,表t1是小表所以作为驱动表,与实际结果相符。
left join 竟然优化成了join,太神奇了,但这是为什么呢?原因在于mysql中null与任何值做等值或者不等值比较的时候都是null,即使是select null=null 也是null。这样where 条件t1.a=t2.a查询条件不会包含t2.a为NULL的行,实际效果其实跟join一样,被优化器智能的优化了。
我们直接看执行计划看实际结果吧:
结果显示t2是驱动表,t1是被驱动表。t2是1000条数据按理说是大表应该是被驱动表,与 博文A , 博文B 的结论又不一致了。
《MySQL实战45讲》中34讲【到底可不可以使用join】已经讲的很透彻了,很深入了,我就不在这里献丑了。啰嗦几句大概就是驱动表是全表扫描不走索引,所以选被驱动表t1可以走索引,不会全表扫描,减少IO次数,性能高。里面对大表小表的总结,简直是精髓,特意在此再次着重强调:
在决定哪个表做驱动表的时候,应该是两个表按照各自的条件过滤,过滤完成之后,计算参与join的各个字段的总数据量,数据量小的那个表,就是“小表”,应该作为驱动表。
按照上面分析,我们先独立思考下MySQL会选择哪张表作为驱动表呢?
表t1,t2在字段a上都有索引不会全表扫描,其中t1.a=5条件过滤后只有一条,很显然嘛,t1数据量少是小表,肯定是驱动表,错不了,再说了前面的红色粗体已经强调了,不会有错的。
有冇搞错?事实又被打脸了。还记得在开篇我们说过的mysql优化器会对sql语句进行优化的吗?下面我们看下执行计划与优化的sql语句:
格式化后的优化SQL如下:
优化后两表t1,t2都走索引,并且都只有一条结果返回,因此都只会扫描一行,数据量一样,所以谁在前面谁就是驱动表,也就是上面sql中表t2。一切都释然,豁然开通!
回头再仔细想想,高,实在是高!仔细深思之后MySQL优化后的句子真让人猛拍大腿。高明之处在于:
1. 本来join连接是个M*N的嵌套循环,优化后变成了M+N的判断,两表不再嵌套判断了。
2. 优化后,两表没有多大必然联系,只需把两表的结果集拼接即可,互不干扰。如果mysql未来可以多线程查询,岂不十分快哉!
小伙伴们还记得我们在上一章 MySQL索引初探 中编码类型不一致发生隐式转换时有时候走索引,有时候索引又失效的问题吗?下面我们选取有代表性的一条记录来分析:
其中表demo_test总共有640条数据,demo_test_ass有3条数据。显然经过过滤条件t.rid>1完成后demo_test_ass数据量小,应该作为驱动表。虽然test.c_utf8mb4 = t.c2两字段连接中发生了t.c2字段发生隐式转换,但是实际上并不影响被驱动表test上的c_utf8mb4索引。
好了,本章到此结束,让我们一起 总结一下MySQL驱动表与被驱动表的选取原则 :
หน ง 同等条件,优先选取有索引的表作为被驱动表。 在此介绍一下什么叫同等条件,比如上面的②中的语句。 两表没有其他额外的过滤条件,因此选关联字段有索引的t1作为被驱动表。但是如果加了条件(and t1.id=3),此时t1数据量少,就选取了t2作为被驱动表。
สอง MySQL选择驱动表与被驱动表是基于优化器优化后的,小表是驱动表,大表是被驱动表。 基于优化器优化后开篇的 博文A与B 结论成立。
当然这都是我一家之言,并不是官方结论,目前暂未找到官方确切对于驱动表与被驱动表的解释,请大家踊跃拍砖!
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)