导致服务器不稳定的主要原因有哪些_服务器

服务器不稳定的主要原因：
一：本地网络问题
如果我们在访问网站的时候突然发现很慢，很卡。我们首先要做的就是检查一下自身本地的网络环境是不是有问题。可以利用ping一下已知的知名域名，ping值出来之后，如果ping值很大，则可能是自己本地的网络环境有问题。反之ping值小，则是美国服务器出现问题了。
二：所在机房问题
网站加载速度过慢时，如果确认本地网络没有问题，还有可能是问题出现在美国服务器所在机房，机房的设备是完善的，但是也不能避免机房出现异常。当机房受到恶意攻击的时候，也会导致美国服务器变慢。另外也要检查一下机房的主干网络是否有异常。如果美国服务器托管了，那么我们可以联系机房的运维人员排查一下什么问题，推荐相关阅读：选择美国服务器应该注意哪些事项
三：运营商国际路由问题
当我们所使用的网络，运行商的路由或者提供的服务出现问题也会导致美国服务器变慢。特别是我们使用国外美国服务器的用户会经常遇到这类问题。当数据在传输的过程中，出现丢包或者无法连接路由时，用到这类网线的美国服务器速度就会很慢。这种情况并不是美国服务器本身出现问题，也不是本地网络出现问题，只需要等运营商修复网络即可。
四：资源不足和美国服务器中毒
我们要知道当美国服务器剩余空间不足时，会导致程序在运行的时候cpu或者内存过载，导致美国服务器速度变慢。遇到这类问题，我们可以尝试优化系统，关闭美国服务器上没必要运行的软件和程序。如果此类事件经常发生，那么我们就应该要升级美国服务器的整体配置了。另外，美国服务器如果遭受到恶意攻击也会导致美国服务器变慢。所以我们选择美国服务器的防火墙和所在机房的安全防护级别也是至关重要的。

一对于华为服务器21f告警，可以根据以下步骤解决：
1、收集和分析告警信息：诊断错误号，确定告警涉及的设备和模块及错误原因，并收集相关软硬件状态以及告警发生的时间和次数；
2、查找相关性能指标，查明告警发生时有无异常指标：比如CPU、内存、磁盘使用率、网络流量和端口占用率等；
3、排查原因：针对收集的信息和指标，排查故障原因，分析其中可能存在的网络、软件或者硬件问题；
4、采取措施治理：和专家沟通，依据原因调整服务器系统参数或者修改网络配置，修改 *** 作系统与数据库服务，重装内核驱动，对故障硬件进行更换；
5、检查告警是否消失：排查完成后，检查告警是否消失，检查服务器性能是否恢复正常。

CPU和内存CPU的类型、主频和数量在相当程度上决定着服务器的性能；服务器应采用专用的ECC校验内存，并且应当与不同的CPU搭配使用。

芯片组与主板即使采用相同的芯片组，不同的主板设计也会对服务器性能产生重要影响。

网卡服务器应当连接在传输速率最快的端口上，并最少配置一块千兆网卡。对于某些有特殊应用的服务器（如FTP、文件服务器或视频点播服务器），还应当配置两块千兆网卡。

硬盘和RAID卡硬盘的读取/写入速率决定着服务器的处理速度和响应速率。除了在入门级服务器上可采用IDE硬盘外，通常都应采用传输速率更高、扩展性更好的SCSI硬盘。对于一些不能轻易中止运行的服务器而言，还应当采用热插拔硬盘，以保证服务器的不停机维护和扩容。

磁盘冗余采用两块或多块硬盘来实现磁盘阵列；网卡、电源、风扇等部件冗余可以保证部分硬件损坏之后，服务器仍然能够正常运行。

热插拔是指带电进行硬盘或板卡的插拔 *** 作，实现故障恢复和系统扩容。

1、服务器处理器主频

服务器处理器主频也叫时钟频率，单位是MHz，用来表示CPU的运算速度。CPU的主频=外频×倍频系数。很多人认为主频就决定着CPU的运行速度，这不仅是个片面的，而且对于服务器来讲，这个认识也出现了偏差。至今，没有一条确定的公式能够实现主频和实际的运算速度两者之间的数值关系，即使是两大处理器厂家Intel和AMD，在这点上也存在着很大的争议，我们从Intel的产品的发展趋势，可以看出Intel很注重加强自身主频的发展。像其他的处理器厂家，有人曾经拿过一快1G的全美达来做比较，它的运行效率相当于2G的Intel处理器。

所以，CPU的主频与CPU实际的运算能力是没有直接关系的，主频表示在CPU内数字脉冲信号震荡的速度。在Intel的处理器产品中，我们也可以看到这样的例子:1GHzItanium芯片能够表现得差不多跟266GHzXeon/Opteron一样快，或是15GHzItanium2大约跟4GHzXeon/Opteron一样快。CPU的运算速度还要看CPU的流水线的各方面的性能指标。

当然，主频和实际的运算速度是有关的，只能说主频仅仅是CPU性能表现的一个方面，而不代表CPU的整体性能。

2、服务器前端总线(FSB)频率

前端总线(FSB)频率(即总线频率)是直接影响CPU与内存直接数据交换速度。有一条公式可以计算，即数据带宽=(总线频率×数据带宽)/8，数据传输最大带宽取决于所有同时传输的数据的宽度和传输频率。比方，现在的支持64位的至强Nocona，前端总线是800MHz，按照公式，它的数据传输最大带宽是64GB/秒。

外频与前端总线(FSB)频率的区别:前端总线的速度指的是数据传输的速度，外频是CPU与主板之间同步运行的速度。也就是说，100MHz外频特指数字脉冲信号在每秒钟震荡一千万次;而100MHz前端总线指的是每秒钟CPU可接受的数据传输量是100MHz×64bit÷8Byte/bit=800MB/s。

其实现在“HyperTransport”构架的出现，让这种实际意义上的前端总线(FSB)频率发生了变化。之前我们知道IA-32架构必须有三大重要的构件:内存控制器Hub(MCH),I/O控制器Hub和PCIHub，像Intel很典型的芯片组Intel7501、Intel7505芯片组，为双至强处理器量身定做的，它们所包含的MCH为CPU提供了频率为533MHz的前端总线，配合DDR内存，前端总线带宽可达到43GB/秒。

但随着处理器性能不断提高同时给系统架构带来了很多问题。而“HyperTransport”构架不但解决了问题，而且更有效地提高了总线带宽，比方AMDOpteron处理器，灵活的HyperTransportI/O总线体系结构让它整合了内存控制器，使处理器不通过系统总线传给芯片组而直接和内存交换数据。这样的话，前端总线(FSB)频率在AMDOpteron处理器就不知道从何谈起了。

3、处理器外频

外频是CPU的基准频率，单位也是MHz。CPU的外频决定着整块主板的运行速度。说白了，在台式机中，我们所说的超频，都是超CPU的外频(当然一般情况下，CPU的倍频都是被锁住的)相信这点是很好理解的。但对于服务器CPU来讲，超频是绝对不允许的。前面说到CPU决定着主板的运行速度，两者是同步运行的，如果把服务器CPU超频了，改变了外频，会产生异步运行，(台式机很多主板都支持异步运行)这样会造成整个服务器系统的不稳定。

目前的绝大部分电脑系统中外频也是内存与主板之间的同步运行的速度，在这种方式下，可以理解为CPU的外频直接与内存相连通，实现两者间的同步运行状态。外频与前端总线(FSB)频率很容易被混为一谈，下面的前端总线介绍我们谈谈两者的区别。

4、CPU的位和字长

位:在数字电路和电脑技术中采用二进制，代码只有“0”和“1”，其中无论是“0”或是“1”在CPU中都是一“位”。

字长:电脑技术中对CPU在单位时间内(同一时间)能一次处理的二进制数的位数叫字长。所以能处理字长为8位数据的CPU通常就叫8位的CPU。同理32位的CPU就能在单位时间内处理字长为32位的二进制数据。字节和字长的区别:由于常用的英文字符用8位二进制就可以表示，所以通常就将8位称为一个字节。字长的长度是不固定的，对于不同的CPU、字长的长度也不一样。8位的CPU一次只能处理一个字节，而32位的CPU一次就能处理4个字节，同理字长为64位的CPU一次可以处理8个字节。

5、倍频系数

倍频系数是指CPU主频与外频之间的相对比例关系。在相同的外频下，倍频越高CPU的频率也越高。但实际上，在相同外频的前提下，高倍频的CPU本身意义并不大。这是因为CPU与系统之间数据传输速度是有限的，一味追求高倍频而得到高主频的CPU就会出现明显的“瓶颈”效应—CPU从系统中得到数据的极限速度不能够满足CPU运算的速度。一般除了工程样版的Intel的CPU都是锁了倍频的，而AMD之前都没有锁。

6、CPU缓存

缓存大小也是CPU的重要指标之一，而且缓存的结构和大小对CPU速度的影响非常大，CPU内缓存的运行频率极高，一般是和处理器同频运作，工作效率远远大于系统内存和硬盘。实际工作时，CPU往往需要重复读取同样的数据块，而缓存容量的增大，可以大幅度提升CPU内部读取数据的命中率，而不用再到内存或者硬盘上寻找，以此提高系统性能。但是由于CPU芯片面积和成本的因素来考虑，缓存都很小。

L1Cache(一级缓存)是CPU第一层高速缓存，分为数据缓存和指令缓存。内置的L1高速缓存的容量和结构对CPU的性能影响较大，不过高速缓冲存储器均由静态RAM组成，结构较复杂，在CPU管芯面积不能太大的情况下，L1级高速缓存的容量不可能做得太大。一般服务器CPU的L1缓存的容量通常在32—256KB。

L2Cache(二级缓存)是CPU的第二层高速缓存，分内部和外部两种芯片。内部的芯片二级缓存运行速度与主频相同，而外部的二级缓存则只有主频的一半。L2高速缓存容量也会影响CPU的性能，原则是越大越好，现在家庭用CPU容量最大的是512KB，而服务器和工作站上用CPU的L2高速缓存更高达256-1MB，有的高达2MB或者3MB。

其实最早的L3缓存被应用在AMD发布的K6-III处理器上，当时的L3缓存受限于制造工艺，并没有被集成进芯片内部，而是集成在主板上。在只能够和系统总线频率同步的L3缓存同主内存其实差不了多少。后来使用L3缓存的是英特尔为服务器市场所推出的Itanium处理器。接着就是P4EE和至强MP。Intel还打算推出一款9MBL3缓存的Itanium2处理器，和以后24MBL3缓存的双核心Itanium2处理器。

但基本上L3缓存对处理器的性能提高显得不是很重要，比方配备1MBL3缓存的XeonMP处理器却仍然不是Opteron的对手，由此可见前端总线的增加，要比缓存增加带来更有效的性能提升。

其实在租用之前你应该先让服务商提供下IP以及网站案例测试好速度与稳定性后再决定是否租用现在服务器已经开通你需要让服务商把用户名和密码给你如果你想测试的话建议把自己的网站架设上去然后找各个不同地区的朋友帮你打开网站参考下速度与稳定性也可以借助于一些测试网站比如说卡卡测速网来测试全国各地以及国外等不同地区访问你网站所需要的时间

一、开通流程第1步：检查修复耗资源程序

网站程序消耗了大量系统资源，站点将被暂停。请务必对出现异常的程序进行修改，修改完成且上传到服务器上。

第2步：网站开通

请登录到主机控制面板，在网站状态管理-站点状态查看-解除限制按钮进行开通。每月可开启3次。如果站点自动关闭过于频繁，连续三个月每月开启达3次，说明您的主机经常处于超负载状态，此功能将不能再开启。

二、解决建议

您也可以升级至更高配置主机产品，登录阿里云网站->管理控制台->云虚拟主机，选择要升级的主机后，点“管理"进入管理页面点击“主机升级”，升级成功后系统将为您自动迁移数据。

三、什么是耗资源

即程序占用CPU及内存过多。在使用主机时程序编写的不合理、错误严重，造成服务器负载急剧上升，严重影响了站点的正常使用。详见《耗资源相关问题汇总》

小结提示：

耗资源（客户程序故障）停权通知

尊敬的客户：由于贵网站严重影响了服务器性能，因此对您的网站采取了处理措施。我们很高兴能够为您服务，但同时请您严格遵守我们签定的主机合同，以保证我们合作的正常进行，保证我们能为更多的用户提供稳定的主机服务。由于我们是对主机服务器进行实时监控的，出现问题后必须马上采取措施，否则将会导致服务器宕机，所以发出此通知信的同时，已将您的网站暂停，希望您能理解，因此给您带来的不便向您表示深深的歉意。

1、何谓耗资源（客户程序故障）？即程序占用CPU及内存过多，是对资源的一种浪费。客户使用虚拟主机时程序编写的不合理、错误严重，造成服务器负载急剧上升，极大的影响了正常客户的使用，就是耗资源（客户程序故障）。耗资源（客户程序故障）分为耗用CPU资源和内存资源二种。

2、为什么会出现耗资源（客户程序故障）？（1）程序编写有问题。（一般为asp程序变量没有清空）（2）数据库调用频繁。（常见的是access数据库问题）（3）由于访问量或流量过大导致的耗内存问题引起的耗资源（客户程序故障）（此情况一般为大流量主机）。

3、耗资源（客户程序故障）的影响。

（1）影响较轻的，会使单个客户网站访问慢。

（2）严重的会使服务器宕机，服务器上的所有。

4、耗资源（客户程序故障）处理方法？

通过观察程度客户耗资源（客户程序故障）的程度，进行处理：

（1）程度较轻：重启程序池或站点；

（2）程度较重：关闭整个站点；

5、耗资源（客户程序故障）客户的解决办法？

发生占用资源过大问题被关停后，需要排查超额占用资源的具体链接和文件，下面介绍如何排查。

（1）从主机控制台下载关停当天的访问日志文件，具体下载路径：登录阿里云管理控制台-点击左侧云虚拟主机-点击主机右侧的管理-点击文件管理-网站日志下载-下载当天的日志，然后通过FTP打开该日志：

（2）查看日志：（3）

具体排查方法：

1a站点在关停后是没有的，因此需要查看关停之前的1-2分钟的访问日志。

2b看服务器响应请求的时间，就是访问日志的最后一列，这里的时间单位是微秒，例如上图的示例中，访问时间不到一秒（1秒=1000000微秒），一般访问时间不应超过3秒(3000000微秒)，访问时间长同样会导致并发访问量过大，适当的优化程序可以减少服务器的具体响应时间。具体访问的文件也在网站日志中有展示。如上图，如果网站访问日志中的最后一列超过3000000，也就是3秒，则需要检查和优化访问的具体文件

（4）如果大量的访问来自同一IP，或是同一IP段，网站则可能是被攻击了。

（5）在浏览器种类这一列，如果有Baidu，Google，Sogou，360等字样，则表示是有搜索引擎在访问网站，如果影响网站可以配置robotstxt文件来禁止搜索引擎访问网站。

6、耗资源（客户程序故障）与大流量的区别。

（1）大流量客户：进行大量的下载、广告互换、聊天等工作，造成带宽严重占用。

（2）耗资源（客户程序故障）客户：运行自己网站程序，造成服务器负载急剧上升，造成服务器无法正常服务。

（3）区别在与大流量客户是网络带宽方面，而耗资源（客户程序故障）客户是对服务器正常运行方面。

提示：最好换好的一的服务器；VPS及ECS就不会再提示了！这是钱能解决的问题不是问题！修改程序只是暂时的处理方法；

日常我们使用redis 缓存时，经常会遇到各种各样的问题，其中redis 偶发性连接超时，是经常遇到的一个问题，下面介绍一下我们之前是如何处理的这个问题。

1、redis 服务监控

通过监控工具，首先排查一下redis 服务端是否是超时，可以从服务器cpu ，内存使用情况，qps等判断server 端是否超时。如果server 侧没有问题，就需要排查客户端。如果server 侧存在问题，就需要排查服务器哪里出了问题，单机性能使用率太高是否可以升级成哨兵模式或者高可用集群模式。

2、redis 客户端排查

首先查看业务日志，查看一下redis 使用情况是否是存在连接数占满或者创建失败的异常，如果存在，在客户端服务器，使用top 指令，查看使用率高的线程，然后jstack pid,查看当前线程的使用情况。如果出现大量的线程状态显示time_waiting 或者waiting 。则表示连接数一直没有释放，可以通过调整客户端配置的redis 连接池参数，比如配置max连接数和min连接数，time_out超时时间等等。

3、redis 热key排查

排查redis 热key,腾讯云或者阿里云服务器可以使用监控热key的工具。redis 40 以后，提供了—hotkey 指令，可以通过热key 指令来监控热key。如果发现异常热key,比如spring-redis-session的热key,存储的是一段时间戳，并且访问率非常高，qps 几十万/s。这时候需要考虑热key是否对业务产生影响，可以通过配置springsessionstore-type=none，关闭存储redis这时候热key访问量下降，业务key 可以正常访问。

通过以上方式，排查生产中遇到的redis 连接问题，可以排查线上遇到的问题，基本都可以解决掉。

linux服务器性能监测是很重要的工作，服务器运行应该提供最有效的系统性能。当服务器系统性能突然低于平均应有的情况，问题可能来自在执行的进程、内存的使用率、磁盘的性能、网络流量和cpu
的压力。在预算短缺的今天，理解如何优化系统性能比以往任何时候都重要。
要实现它的前提是，你必须充分了解自己的计算机和网络，从而找到真正的瓶颈所在。本文提供一些基础的工具来辨别和处理一些性能问题。使用的linux
发行版本是red
hat
enterprise
linux
4，工作过程是：首先查看整个系统的状态，然后是检查特定的子系统。
linux服务器进行性能监控有几种方法，每种方法都各有其优缺点。
使用snmp等标准工具
标准及非标准工具能执行一个或多个收集、合并及传输阶段，如rstatd或snmp工具，然而标准的rstat后台程序提供的信息是有限的，速度慢而且效率低。
内核模块
几个系统监控工程利用内核模块来存取监控数据。一般情况下，这是很有效的收集系统数据的方法。然而这种方法存在的问题是，当主内核源内有其它改变时，必须保持代码一致性。一个内核模块可能与用户想使用的其它内核模块相冲突。此外，在使用监控系统之前，用户必须获得或申请模块。
/proc虚拟文件系统
/proc虚拟文件系统是一个较快的、高效率执行系统监控的方法。使用/proc的主要缺点是必须保持代码分析与/proc
文件格式改变的同步。事实表明，linux内核的改变比/proc
文件格式的改变要更频繁，所以，用/proc虚拟文件系统比用内核模块存在的问题要少。本文介绍的方法即基于/proc虚拟文件系统。
一、
/proc文件系统特点
linux
系统向管理员提供了非常好的方法，使他们可以在系统运行时更改内核，而不需要重新引导内核系统。这是通过
/proc
虚拟文件系统实现的。/proc
文件虚拟系统是一种内核和内核模块用来向进程
(process)
发送信息的机制
(所以叫做
/proc)。这个伪文件系统让你可以和内核内部数据结构进行交互，获取
有关进程的有用信息，在运行中
(on
the
fly)
改变设置
(通过改变内核参数)。
与其他文件系统不同，/proc
存在于内存之中而不是硬盘上。不用重新启动而去看
cmos
，就可以知道系统信息。这就是
/proc
的妙处之一。
小提示:
每个linux系统根据软硬件不同/proc
虚拟文件系统的内容也有些差异。/proc
虚拟文件系统有三个很重要的目录：net，scsi和sys。sys目录是可写的，可以通过它来访问或修改内核的参数，而net和scsi则依赖于内核配置。

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/zz/12691818.html

导致服务器不稳定的主要原因有哪些

发表评论

评论列表（0条）