一天中午生产环境经常出现连接超时,过了一会儿能连上的现象;中午的时候尤其严重,服务无法连接,接口访问持续报错,查看日志均无error日志。
事故处理过程:
打开阿里云的控制台,找到rds的实例点进去,发现cpu使用率已经到达100%,后续点开侧边栏里面的一键诊断,看到里面的异常会话有很多,都是一条作业查询的sql导致的,古断定为慢sql导致的,通过添加表索引解决了问题。
事故总结:
问题就是数据量增多后表不加索引会导致关联查询的sql越来越慢慢,最后慢sql造成会话异常,异常的会话没有关闭会导致rds这台服务器cpu使用率达到极限,从而导致其他sql执行过慢,甚至直接执行不下去。
1、占用率高,多数是因为SQL语句的问题,可以使用以下语句进行排查
USE masterGO
--若要指定数据库就修改USE后面的部分
SELECT * FROM sys.[sysprocesses] WHERE [spid]>50 --AND DB_NAME([dbid])='gposdb'
SELECT COUNT(*) FROM [sys].[dm_exec_sessions] WHERE [session_id]>50
2、检查程序是否存在高频率的循环
3、检查SQL是否有嵌套触发器,这个是最难检查,也是最难发现的
4、CPU本来就很次,需要更换更好的CPU
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)