当问题是局部发生的时候。则需进行排查。首先查看服务器各个集群的状态:
日志的排查不能是漫无目的的,需要根据问题的情况及对业务的了解,先后的去排查可能相关的日志。
问题一般在如上的流程中都能定位出来。如果定位不出来:
==让自己冷静下来,停下来一分钟,想一想问题,千万不要慌乱,并在没有思路的情况下 *** 作,避免二次事故==
试试以下方案:
当影响范围或这错误已经找到或者没找到的情况下。需要在最短的时间内恢复系统(不一定是100%恢复,但要保持基本可用),如:
如等级系统异常导致的整站异常,则可下掉等级系统,所有用户等级全部默认1级,以保持系统基本功能可用
从上面的处理过程会得到一个提醒:
==线上系统的备用方案非常重要,系统需要有演戏,有紧急情况下的备用方案==
上面的排查过程,需要在一系列工具的配合下才能准确,快速的定位问题,以下列一下可能需要用的工具。
==linux命令是最好用的工具==
业务的访问情况分析,如pv,可以用百度统计等第三方统计平台(对于上述的情况,这种第三方统计平台是足够使用的)。
接口的访问情况,可能看起来比较麻烦。一般接口的访问情况,可以根据入口服务器(如nginx或apache)的访问日志来做一个简单的估计和查看。但是如果是分布式的机器的情况下,就比较麻烦。建议搭建ELK日志平台,通过对日志的聚合统计就可以做到接口访问情况的分析。
zabbix:是一个基于WEB界面的提供分布式系统监视以及网络监视功能的企业级的开源解决方案。可以监控到各种服务器信息。
当然目前运维届有各种监控工具,如单独监控mysql集群的工具,redis的集群监控工具等都是可以用的。各个公司需要根据自己的情况,选用不同的工具。毕竟如果只需要监控mysql,那用zabbix就太重了。
业界目前比较流行的有ELK Stack。用于一站式的日志采集,存储,查看和分析。可以集中,方便的观察到各台服务器的日志情况,又不需要每个人都开通线上机器的权限,也方便日志的查询和搜索
在一般情况下(业务系统较简单,机器不多)。linux的命令是最方便快捷的方法。配合shell的sed或awt语法,可以做很多事情。
下面列一下一些常用的命令或工具:
宕机服务器排查故障方法
1、在运行环境的问题中,最普遍的问题时磁盘空间耗尽。
2、在性能问题中,最普通的服务器宕机原因确实是运行很糟糕的SQL,但也不一定都是这个原因,比如也有很多问题时由于服务器Bug或错误的行为导致的。
3、糟糕的Schema和索引设计是第二大影响性能的问题。
4、复制问题通常由于主备数据不一致导致。
5、数据丢失问题通常由于 *** 作的错误 *** 作导致,并总是便随着缺少可用备份的问题。
6由于系统原因,导致的服务器宕机,一般重启下服务器就可以。
明白了服务器宕机的原因,我们就可以采取相应的措施来排查。宕机服务器如何排查故障
1、阿里云提示在xxxx服务器上发现木马文件,被植入了webshell。2、木马文件路径:/web/tomcat-xxx/webapps/no3/ccjsp。
1、在未确认ccjsp文件功能之前,将webapps文件夹下的no3文件夹和no3war文件删除,同时将no3war文件备份到/home/xxx目录下。
2、同时将no3文件夹下的ccjsp文件发送到本地进行分析,确认是一个jsp的木马后门文件,可以获取远程服务器权限。
1、攻击者在webapps文件夹下上传了一个no3war文件,并创建了包含ccjsp木马文件的no3 文件夹,首先应找到上传的方式和路径。查看下网站,发现网站是采用的Tomcat容器。
2、进一步的思路是排查Tomcat本身的漏洞,查看Tomcat的配置文件tomcat-usersxml,发现Manager APP管理员弱口令。
3、可能的攻击思路是,通过Tomcat弱口令漏洞上传war格式的木马文件。
1、通过admin/admin弱口令登录 >1、网络问题客户端 ping 它有无返回
2、ps aux | grep ssh (ps -ef|grep ssh) -查询服务是否起来
3、查询端口是否符合预期
netstat -anp | grep ssh --查询服务的端口
4、防火墙是否允许访问22端口,防火墙是否开启
service iptables status, service iptables stop 关闭防火墙
5、客户端,服务端配置文件
电脑不能上网有三种可能,需要逐一排查解决:
一是网络信号缺失;
二是网络设备损坏;
三是网络设置错误。
一、网络信号:
1、查看网络信号接入端如调制解调器或无线路由等设备,查看其信号指示灯是否正常。如有异常,可电话联系网络服务商寻求技术支持。
如果网络信号正常,下图中Internet状态指示灯应该恒亮、Internet指示灯和LAN指示灯则应该恒亮且闪烁(不同品牌型号调制解调器的指示灯信号大同小异)。
2、排除影响无线信号传播的各种因素:
(1) 无线局域网采用的是微波传输,微波的最大特点就是绕射能力非常弱。家庭网络中最主要的障碍物就是墙壁,它不仅阻挡无线信号还能把电磁的能量吸收掉,因此身处在墙后面的无线接收设备只能接到很微弱的信号,或没有收到信号。
(2) 微波炉、蓝牙设备、无绳电话、电冰箱等的强大磁场会使无线网络信号受到影响。
(3) 如果在无线环境中存在多台无线设备还有可能存在频道冲突,无线信号串扰的问题。
(4) 距离无线设备及电缆线路 100 米内的无线电发射塔、电焊机、电车或高压电力变压器等强信号干扰源,也可能会对无线信号或设备产生强干扰。
(5) 室外传播时天气情况对无线信号的影响也很大,雷雨天或天气比较阴沉的时候信号衰减比较厉害,晴天里信号能传输的距离会比较远。
二、网络设备:
1、逐项检查网络设备是否正常运行:
(1)检查无线路由器是否通电;
(2)检查无线路由器信号指示灯是否异常;
(3)检查无线网卡是否正常检测出来及驱动是否安装;某些笔记本电脑有无线开关,其开关是否打开;
(4)检查有线网卡是否正常检测出来及驱动是否安装、网线及接头是否有断裂等情况。
可将调制解调器或无线路由器或交换机等设备进行断电重启 *** 作,以排除信号阻塞或设备过热等问题发生。如有条件还可用专用设备检测确定。
2、排除检测法:不具备相关专业知识的用户可使用其它电脑或手机连接网络,以判断是否正常。如有某台电脑或手机能够在同一网络环境中能够正常上网,则说明网络信号和网络设备是正常的。反之,如果所有电脑或手机都不能无线上网,则说明无线路由设备或其设置出现问题。
三、网络设置:
1、拨号上网:连接有路由器的网络一般在网络安装时即登录路由器并输入网络服务商提供的帐号和密码以自动拨号上网,直接通过调制解调器连接电脑上网的需要先手工拨号(使用系统提供的宽带连接或网络供应商提供的专用拨号工具)再上网。
2、IP地址设置:如果网络信号及网络设备正常但仍然无法正常上网,则很可能是IP地址设置错误或IP地址冲突或自动分配的IP地址与实际IP地址不在同一网段所致。需要正确配置IP地址, *** 作如下:
A、以WINXP设置为例:
(1)点击 “网上邻居”——“本地连接”——“属性”;
(2)点击本地连接属性窗口中的“Internet协议 (TCP/IP)——属性”;
(3)在“常规”选项卡配置好IP地址、网关及DNS等参数(具体参数可查看路由器说明书或电话问询宽带供应商;如果无线路由设置打开了DCHP,可自动分配正确的IP地址的话,则可将IP地址及DNS等均设置为“自动搜索获得”)。
B、以WIN7无线网络设置为例:
(1)点击 “控制面板”——“网络和INTERNET”——“查看网络状态和任务”,选择连接了但无法上网的无线网络连接,在d出窗口中点击其“属性”;
(2)点击无线网络连接属性窗口中的“Internet协议 (TCP/IPv4)——属性”;
(3)在“常规”选项卡"使用下面的IP地址"和“使用下面的DNS服务器地址”中配置好正确的IP地址、网关及DNS等参数(具体参数可查看路由器说明书或电话问询宽带供应商;如果路由器设置打开了DCHP,可自动分配正确的IP地址的话,则可将IP地址及DNS等均设置为“自动搜索获得”)。
如果同一网络中有其它电脑能够正常WIFI上网,则可通过“ipconfig /all”命令获取正确的IP地址等网络参数,其 *** 作步骤如下:
(1)打开“开始”菜单,从所有程序中找到“附件”,再从附件中打开“命令提示符”,输入命令“ipconfig /all”并回车。
(2)执行命令显示所有网络配置后,找到IPv4地址这一项,后面的值即为可用IP地址,当然还有网关,DNS服务器的主,备用地址,将这些都记下。再回到Internet协议版本4 (TCP/IPv4)属性窗口,把刚才记下的数据,逐一填上,然后再勾上“退出时验证设置”,验证一下更好,确定。如果以上参数无效,则可查看路由器说明书或电话问询网络供应商以确定。
3、网络安全:定期使用安全软件如360安全卫士或类似软件检测是否遭到病毒感染或网络攻击,以采取相应措施。
4、其它设置:如果以上 *** 作无效,则需要登录调制解调器或路由器,检查各项参数是否设置正常。如是否关闭了网络服务,是否设置了MAC地址绑定等。特别是如果无线上网密码不对,可能系他人篡改(因路由器登录帐号和密码一般默认均为:ADMIN或BOOT,熟悉网络的同网段用户可随时登录修改参数,路由器登录IP地址也一般印在路由器外壳标签上,如:19216811),则需要登录路由器(路由器登录帐号和密码如果也被篡改,可在通电状态下长按路由器外壳上的RESET按钮重置路由器),即可恢复原来的登录账号密码等所有参数。
1、同时ping网内的服务器和其他电脑,注意看延迟的差别。不一样,那说明是服务器响应的问题。一样,网络有瓶颈或者有网络风暴,也不排除本机响应问题。2、网络瓶颈的话,可以同时ping接在不同交换机上的设备,确认在哪一级出现的。
3、网络风暴可以在路由器的实时连接上可以查到
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)