为什么服务器的宕机一般都发生在凌晨使用率最低的时候?

为什么服务器的宕机一般都发生在凌晨使用率最低的时候?,第1张

之前我们单位夜晚有一台设备down了,这台设备做的堆叠,而不是备份,所有下联线路全部连接在主设备上。结果当晚凌晨,主设备的电源模块损坏了!这 你能看出规律吗?我也想知道为什么它偏偏凌晨损坏了!

所以说,偶然性事件,不能说大部分!

但是夜间割接倒是正常,选择在用户最少的时候做可能影响业务的必要事情是常识。

首先很荣幸能够为大家解答这个问题,让我们一起走进这个问题,现在我们一起探讨一下。
下面我为大家分享,我个人对这个问题的看法与意见,希望我的回答能给大家带来帮助,也希望大家能够喜欢我的分享。
夜黑风高,杀人越货。这个时间点是正常人休息时间,而黑客则选择在这个时候活动,不论是安全攻击,或者是DDOS,都可能造成服务器故障。
大家如果有更好的关于这个问题的解答,还望一起评论出来共同讨论这话题。
我最后在这里,祝大家生活愉快每天开开心心工作快快乐乐生活, 健康 生活每一天,家和万事兴,年年发大财,生意兴隆,谢谢!
来自16年经验老程序员的靠谱回答。

主要有以下几个原因

首先,确实服务器的宕机一般都发生在凌晨使用率最低的时候,但是这个使用率只是针对用户而言的。

实际上,在凌晨的时候,服务器是很忙的。主要忙哪些事情呢?主要是一些定时任务,还有数据库备份等。很多比较耗时的 *** 作比如报表统计都会安排在半夜,以免半天影响正常业务,所以这个时候,服务器都是在高负荷运转的,容易产生事故。

同理,发布新代码或者更改功能,也会选择在晚上的业务低峰期。无论前期的测试工作做的多么到位,也难免会隐藏一些bug,到了凌晨,这些bug(比如死循环)已经跑了一段时间了,在无人值守的情况下就可能触发各种故障。

如果上线时间比较短还好,遇到更新比较大的情况下,程序员奋战到大半夜,这个情况下人是很疲惫的,更容易忙中出错。

比如死循环和内存泄漏,是需要经过一段时间才能表现出来的。白天有人实时监控,自然出现故障的几率比较小,就算出现故障了,也能很快修复,让用户无法觉察。

夜黑风高,杀人越货。这个时间点是正常人休息时间,而黑客则选择在这个时候活动,不论是安全攻击,或者是DDOS,都可能造成服务器故障。

计科专业从事嵌入式软件开发多年,最近因为公司需要搞后台研发,经常选择升级的时机放在凌晨,而且大型的数据处理也是放在这个时间段内,经常发生的服务器宕机也是在这个时段。都是在用户使用少的时候开始折腾,折腾的次数多也就容易出现服务器问题。由于做的是物联网设备,在工作中遇到的宕机主要有这么几种情况,对大量数据的 *** 作导致CPU占比在一段时间内骤增从而导致数据接收模块出问题,导致系统监控出现问题,很多设备信息检测不到了。

对数据库的 *** 作太频繁导致效率的下降,也是影响系统性能很重要的一部分,其实服务器也是普通电脑的构成,主要的资源是CPU和内存,这两个因素无论是哪种都有可能导致系统的崩盘,如果是CPU被占满了,系统的反应会变得异常缓慢,时间长了可能还会慢慢缓过劲来,内存如果占满了那么会导致系统的崩溃,直接运行不下去了,其实宕机核心点不会跑出这两种因素。

现在就常见的服务器宕机问题做个归纳总结:

1磁盘空间被占满,现在程序员运行的时候都习惯于带上log打印,如果时间长了加上没有清理的机制早晚会出问题,这个错误在平时运行过程中经常出现,如果使用的云计算服务器通常在系统崩盘之前都会发个短信,通知你的系统处于崩溃的边缘。

2并发性能问题,如果多个人同时 *** 作一个数据库或者数据块,会导致系统假死状态,这种属于争抢CPU资源问题,可以通过增加硬件配置以及优化软件代码的效率去解决,数据量如何足够大就可以考虑分布式的管理

3数据受损或者被破坏导致系统崩盘,所以常见的做法是都会配置备份盘,出现问题抓紧拿到备份盘来顶上,现在公司使用的是阿里云的服务器,稳定性相比之前好太多了,中间换过电信云,腾讯云虽然价格低点,最后受不了直接换成阿里云,再也不想换回去了,数据的稳定性永远是第一位的。

4,一些没有必要的误 *** 作,很多时候是因为程序员或者运维人员的误 *** 作大致服务器大面积的宕机,这种事件在很多云服务提供商身上都发生过,根本层面还是管理问题。后台管理的任何细节都有可能

服务器宕机查找问题的几个线索:

1看看服务器是不是存在内存泄漏问题,有些时候重启机器开始还能正常运行弄了一段时间之后就会变得非常缓慢,十有八九都是内存的问题

2是否有黑客入侵造成,有些非常关键重要的数据也是黑客最感兴趣的,一般来讲这种概率不是很高

3是不是数据库死锁导致的,访问量过大导致,连接数过多造成的。

服务器宕机一旦发生就会引起用户的无数的投诉,无论在什么情况下稳定永远是第一位,现在大的功能升级除非已经百分百验证成功,否则引起的后果不堪设想。

希望能帮到你。

来自华为的维护人员粗略的回答:

1,业务类:系统定时任务。 比如说晚上的统计报表,任务刷新,数据刷新,或者数据备份。等等。都是在晚间凌晨的时候做的。这个时候会导致CPU/内存/空间(磁盘/数据库)/IO(磁盘读写)会很高。所以导致可能出现宕机或者资源不足的情况。

2, *** 作类:如果需要进行割接/升级/打补丁/整改之类的 *** 作的时候,都是有可能触发情况。很多情况需要重启进程/服务/系统。

3,bug类,不管是Linux系统或者业务系统都有可能存在bug导致系统崩溃或者服务器宕机。这种情况在白天也有可能发生。

4,硬件问题。如单板/磁盘等硬件由于实用年限问题等慢慢也会老化,比如说磁盘阵列的磁盘就很容易损坏。

5,突然的业务拥堵导致数据量很大,导致传输以及业务拥堵。以及磁盘空间满载或者数据库表空间满了。导致出现问题。都是可能发生问题的情况的。

偶发性的,可以能是你浅意识的,因为这种问题印像最深刻,可能认为比较多,通过做记录去试下。
宕机一般分5种情况:

1、程序上出了问题导致程序崩溃。

2、cpu\Gpu 、内存占满了。

3、硬盘空间满了

4、数据库表空间满了

5、机房温度过高
以上是个人在运维过程中所遇到的问题,做的总结性回答

虽说在凌晨的时候,使用系统的用户非常少,但是服务器在这个时候要做的工作可能一点儿也没有少:
再说一个很久以前看到的,同行们分享的服务器宕机的经历,有些经历非常之神奇,大家就当段子看吧(为了方便,我就按照第一人称来讲述)。

我们服务的甲方是一家医院,机房就在医院的楼中,最近机房的服务器经常性的发生宕机,公司的工程师去了几次也没有发现问题;后来公司被折腾的没办法了,决定让一个工程师晚上住在机房,看看半夜机房中究竟发生了什么事儿,想着就算找不到原因,也能在服务器宕机后第一时间重启。

后来发现原因,到了凌晨三四点的时候,机房门打开了,进来一个值夜班的小护士,看了一眼说:“又没有人,开着空调不浪费电么?”然后就把机房的空调关掉了,然后气温上升
服务器宕机是指服务器因为一些原因导致服务器无法正常运行,造成网络断开,无法正常使用网络。服务器宕机一般都发生在凌晨,为什么会出现这种情况呢? 像我们公司是从事 科技 互联网设备生产的,为了不影响正常生产,系统升级的时候一般都是在凌晨,而且很多的数据处理也放在这个时候,服务器在这个时候也容易出现问题,具体分析有以下几种原因:
1 系统在升级或处理大的数据时,硬盘空间被占满,如果没有人能及时清理磁盘空间,服务器就会出现卡顿的问题造成宕机。

2如果是多台设备同时在 *** 作,使用这一个数据库,会引起系统假死的现象,这个是属于抢占CPU的资源造成的,会导致服务器不堪自负,网站访问量猛增,程序中毒遭到很多的应用都在消耗服务器,最终死机无法响应。
3由于凌晨维护人员减少,会出现断电,温度过高等等环境因素的影响,使服务器死机等等,不过这种情况是很少见的,因为现在机房都有发电机备用避免停电造成的数据丢失,温度也是采用的恒温系统。

4有的企业为了节省服务器的费用,会租用较低配置的服务器来从事很多的工作,使服务器超负荷运转,结果是可以预料得到的,宕机就会经常发生。

5服务器宕机一般和内存有很大的关系,有些服务器运行了一段时间后速度就变慢了,基本上就是内存出现问题,要检查一下内存是否存在泄漏的问题。
服务器宕机会出现一系列的问题,造成的损失也是无法估量的,只有平时定期做好维护,在凌晨的时候也要注意掌握使用状况才能避免宕机,无论在任何时候,服务器的稳定运转才是最重要的。

这里需要说明一下,服务器宕机是什么意思呢? 我们日常说的“宕机”中的“宕”其实指的是英文“down”,宕机表示当前服务器或服务无响应或者不在线状态。

服务器的宕机可分为人为控制的宕机、不可控的宕机。 这两者有什么区别呢,下面来具体说明一下:

1、人为可控的宕机行为

服务器长时间的运行可能会带来一些(非致命性)问题,又或者我们需要对服务器进行软/硬件的升级维护时,可能需要停机或者重启 *** 作。这种情况下的宕机是可控的,在我们的计划之内。

2、不可控宕机行为

这种因素就很多了,比如说 服务器突然蓝屏、服务异常崩溃、突然断电断网了 ,这时候服务(器)就无法正常提供服务,这些都是不可控因素导致的。

而 在我们的日常运维工作中,计划性的宕机维护一般都选择在半夜 来做这些事,为什么呢,原因主要有这几点:
1、 减少对用户的影响

凌晨大家基本上都休息了,用户量较白天来说小得多,所以选择在此时进行系统及硬件的维护导致的宕机对用户的影响较小,就算有影响也只是影响小部分用户。

2、 有足够的时间来处理故障

在凌晨进行维护,就算有问题,技术人员也有足够的时间(比如说:00~05点)去处理故障。如果换成在日间维护,服务(器)宕机1小时以上投诉单全都过来了,压力很大的。

原理其实很简单:这就如同我们白天忙碌着很多事物性的工作,就如同搬运工一样,不停的搬运物品入库,只有在物品都搬运完了的时候,我们才能开始整理这些物品,整理仓库,。

其二,服务器在白天的时候,其实都在实时处理数据的“搬运工”状态,只有在实时性数据处理工作(搬运工作)完成以后,才有机会或才能腾出手来去做数据的归纳和整理。所以,服务器的宕机时间,通常会发生在使用率最低的时间段。仅此。

1、服务器超过最大连接数,达到峰值,响应延迟:“服务器忙,请稍后再试”的原因主要与网站、游戏或软件服务器的资源分配有关。任何服务器,无论是虚拟服务器(VPS、云主机)还是物理服务器,其CPU、内存、网络等资源分配都是有限的。当并发请求的数量,即同时在线服务的数量超过服务器时,解决方法:与用户对比,按照提示 *** 作,稍后再试。当然,比如在玩游戏的时候,我们也可以选择在线用户数量少的时候登录游戏服务器,这样可以避免在线高峰时间,可以很好的避免服务器繁忙的情况;对于服务器运维人员,我们可以通过优化服务器软硬件环境或者升级服务器资源分配来避免“服务器忙,请稍后再试”的情况。
2、与服务器相关的应用程序更新和升级:这种原因在游戏或软件服务器中普遍存在。当然,有些web应用服务器经常更新升级,也就是说游戏、软件或者应用需要更新或者正在更新,服务器的多响应服务被关闭。因此,会出现提示“服务器正忙,请稍后再试”。解决方案:对于用户来说,当然还是要等待,或者咨询服务器,或者浏览相应的公告等。以上是超微服务器经常自动断网的原因。

健康码访问量过大导致服务器瘫痪,可以稍后再试。
有可能是访问量过大服务器瘫痪,也有可能超过了系统容量极限,又或者是网络带宽性能不足的硬件问题,以及本身就有设计缺陷的软件问题。

天府健康通软件在电脑上显示系统繁忙是因为网络原因,需要等待一段时再进行 *** 作。

登录健康码不起作用。这可能是由于错误输入了帐户密码。单击“忘记密码”再次更改密码。也可能是由于网络不稳定而无法登录。确保您的移动网络正常,然后重新登录。它可能是由手机损坏引起的。您可以选择更改手机并重试。四川天府健康通家庭码添加第三人看不到的原因是网卡。四川天府健康通家庭码能添加5位家庭成员,看不到信息可以重新添加或者刷新几次。

也可能是扫描时完整性代码失败,因此您可以升级网络。此外,健康码有一个有效期,默认为7天。当健康码过期时,您需要再次报告健康状况才能再次获取。为落实“外防输入、内防扩散”要求,更好地利用互联网+大数据推进疫情防控,加强各级机关事业单位工作人员健康风险评估和跟踪管理,软件信息系统采用红、黄、绿三种二维健康码,实现动态管理。

低风险人群:指数据更新日期前未接触新冠肺炎的人群;或者我在过去14天内没有发烧、乏力、咳嗽、腹泻、结膜炎等症状。人群得到一个绿码,人们可以通过该码。中风险人群:指除重点地区外的其他省份人员;或省内主要防控社区的人员。目前,该小组收到代码,在单位和社区监督下在家隔离14天。

主管工作人员表示,由于网络拥塞,天府健康通无法正常使用,正在进行处理。如果你遇到这种情况,不要惊慌!您可以先使用国家政务服务平台的抗疫健康信息码点击下载app。

根据你描述的情况,我判断可能是web服务器的访问量比较大导致的;
当连接上web服务器时,网络变慢,一个是你们内网的办公电脑访问一个是外网的电脑访问服务器,当访问数量比较大的时候,就会把你们的整个网络都拖累,因为你们公司的宽带的带宽是一定的(比如是4M,一个人来访问假如占用01M的带宽,那40个人来访问你们的网络就满了,就什么都做不了啦),所以访问量肯定是会影响你们公司的整体网络使用的。
正常情况下,应该对web服务器的访问做限制,但你们的网络结构比较简单,网络设备也很简单,不知道是否能做限制访问的设置。一般只有高端的路由器或者防火墙才能做这种设置。
如果能设置的话,还是假设你们的宽带是4M,你就可以设定访问web服务器的最大占用带宽为1M,这样你们还有3M的带宽可以供公司的其他办公电脑使用,应该就不会再出现这种情况了。
以上也只是本人的个人观点,希望能帮助你。


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/zz/13355302.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-07-20
下一篇 2023-07-20

发表评论

登录后才能评论

评论列表(0条)

保存