所以说,偶然性事件,不能说大部分!
但是夜间割接倒是正常,选择在用户最少的时候做可能影响业务的必要事情是常识。
首先很荣幸能够为大家解答这个问题,让我们一起走进这个问题,现在我们一起探讨一下。
下面我为大家分享,我个人对这个问题的看法与意见,希望我的回答能给大家带来帮助,也希望大家能够喜欢我的分享。
夜黑风高,杀人越货。这个时间点是正常人休息时间,而黑客则选择在这个时候活动,不论是安全攻击,或者是DDOS,都可能造成服务器故障。
大家如果有更好的关于这个问题的解答,还望一起评论出来共同讨论这话题。
我最后在这里,祝大家生活愉快每天开开心心工作快快乐乐生活, 健康 生活每一天,家和万事兴,年年发大财,生意兴隆,谢谢!
来自16年经验老程序员的靠谱回答。
主要有以下几个原因
首先,确实服务器的宕机一般都发生在凌晨使用率最低的时候,但是这个使用率只是针对用户而言的。
实际上,在凌晨的时候,服务器是很忙的。主要忙哪些事情呢?主要是一些定时任务,还有数据库备份等。很多比较耗时的 *** 作比如报表统计都会安排在半夜,以免半天影响正常业务,所以这个时候,服务器都是在高负荷运转的,容易产生事故。
同理,发布新代码或者更改功能,也会选择在晚上的业务低峰期。无论前期的测试工作做的多么到位,也难免会隐藏一些bug,到了凌晨,这些bug(比如死循环)已经跑了一段时间了,在无人值守的情况下就可能触发各种故障。
如果上线时间比较短还好,遇到更新比较大的情况下,程序员奋战到大半夜,这个情况下人是很疲惫的,更容易忙中出错。
比如死循环和内存泄漏,是需要经过一段时间才能表现出来的。白天有人实时监控,自然出现故障的几率比较小,就算出现故障了,也能很快修复,让用户无法觉察。
夜黑风高,杀人越货。这个时间点是正常人休息时间,而黑客则选择在这个时候活动,不论是安全攻击,或者是DDOS,都可能造成服务器故障。
计科专业从事嵌入式软件开发多年,最近因为公司需要搞后台研发,经常选择升级的时机放在凌晨,而且大型的数据处理也是放在这个时间段内,经常发生的服务器宕机也是在这个时段。都是在用户使用少的时候开始折腾,折腾的次数多也就容易出现服务器问题。由于做的是物联网设备,在工作中遇到的宕机主要有这么几种情况,对大量数据的 *** 作导致CPU占比在一段时间内骤增从而导致数据接收模块出问题,导致系统监控出现问题,很多设备信息检测不到了。
对数据库的 *** 作太频繁导致效率的下降,也是影响系统性能很重要的一部分,其实服务器也是普通电脑的构成,主要的资源是CPU和内存,这两个因素无论是哪种都有可能导致系统的崩盘,如果是CPU被占满了,系统的反应会变得异常缓慢,时间长了可能还会慢慢缓过劲来,内存如果占满了那么会导致系统的崩溃,直接运行不下去了,其实宕机核心点不会跑出这两种因素。
现在就常见的服务器宕机问题做个归纳总结:
1磁盘空间被占满,现在程序员运行的时候都习惯于带上log打印,如果时间长了加上没有清理的机制早晚会出问题,这个错误在平时运行过程中经常出现,如果使用的云计算服务器通常在系统崩盘之前都会发个短信,通知你的系统处于崩溃的边缘。
2并发性能问题,如果多个人同时 *** 作一个数据库或者数据块,会导致系统假死状态,这种属于争抢CPU资源问题,可以通过增加硬件配置以及优化软件代码的效率去解决,数据量如何足够大就可以考虑分布式的管理
3数据受损或者被破坏导致系统崩盘,所以常见的做法是都会配置备份盘,出现问题抓紧拿到备份盘来顶上,现在公司使用的是阿里云的服务器,稳定性相比之前好太多了,中间换过电信云,腾讯云虽然价格低点,最后受不了直接换成阿里云,再也不想换回去了,数据的稳定性永远是第一位的。
4,一些没有必要的误 *** 作,很多时候是因为程序员或者运维人员的误 *** 作大致服务器大面积的宕机,这种事件在很多云服务提供商身上都发生过,根本层面还是管理问题。后台管理的任何细节都有可能
服务器宕机查找问题的几个线索:
1看看服务器是不是存在内存泄漏问题,有些时候重启机器开始还能正常运行弄了一段时间之后就会变得非常缓慢,十有八九都是内存的问题
2是否有黑客入侵造成,有些非常关键重要的数据也是黑客最感兴趣的,一般来讲这种概率不是很高
3是不是数据库死锁导致的,访问量过大导致,连接数过多造成的。
服务器宕机一旦发生就会引起用户的无数的投诉,无论在什么情况下稳定永远是第一位,现在大的功能升级除非已经百分百验证成功,否则引起的后果不堪设想。
希望能帮到你。
来自华为的维护人员粗略的回答:
1,业务类:系统定时任务。 比如说晚上的统计报表,任务刷新,数据刷新,或者数据备份。等等。都是在晚间凌晨的时候做的。这个时候会导致CPU/内存/空间(磁盘/数据库)/IO(磁盘读写)会很高。所以导致可能出现宕机或者资源不足的情况。
2, *** 作类:如果需要进行割接/升级/打补丁/整改之类的 *** 作的时候,都是有可能触发情况。很多情况需要重启进程/服务/系统。
3,bug类,不管是Linux系统或者业务系统都有可能存在bug导致系统崩溃或者服务器宕机。这种情况在白天也有可能发生。
4,硬件问题。如单板/磁盘等硬件由于实用年限问题等慢慢也会老化,比如说磁盘阵列的磁盘就很容易损坏。
5,突然的业务拥堵导致数据量很大,导致传输以及业务拥堵。以及磁盘空间满载或者数据库表空间满了。导致出现问题。都是可能发生问题的情况的。
偶发性的,可以能是你浅意识的,因为这种问题印像最深刻,可能认为比较多,通过做记录去试下。
宕机一般分5种情况:
1、程序上出了问题导致程序崩溃。
2、cpu\Gpu 、内存占满了。
3、硬盘空间满了
4、数据库表空间满了
5、机房温度过高
以上是个人在运维过程中所遇到的问题,做的总结性回答
虽说在凌晨的时候,使用系统的用户非常少,但是服务器在这个时候要做的工作可能一点儿也没有少:
再说一个很久以前看到的,同行们分享的服务器宕机的经历,有些经历非常之神奇,大家就当段子看吧(为了方便,我就按照第一人称来讲述)。
我们服务的甲方是一家医院,机房就在医院的楼中,最近机房的服务器经常性的发生宕机,公司的工程师去了几次也没有发现问题;后来公司被折腾的没办法了,决定让一个工程师晚上住在机房,看看半夜机房中究竟发生了什么事儿,想着就算找不到原因,也能在服务器宕机后第一时间重启。
后来发现原因,到了凌晨三四点的时候,机房门打开了,进来一个值夜班的小护士,看了一眼说:“又没有人,开着空调不浪费电么?”然后就把机房的空调关掉了,然后气温上升
服务器宕机是指服务器因为一些原因导致服务器无法正常运行,造成网络断开,无法正常使用网络。服务器宕机一般都发生在凌晨,为什么会出现这种情况呢? 像我们公司是从事 科技 互联网设备生产的,为了不影响正常生产,系统升级的时候一般都是在凌晨,而且很多的数据处理也放在这个时候,服务器在这个时候也容易出现问题,具体分析有以下几种原因:
1 系统在升级或处理大的数据时,硬盘空间被占满,如果没有人能及时清理磁盘空间,服务器就会出现卡顿的问题造成宕机。
2如果是多台设备同时在 *** 作,使用这一个数据库,会引起系统假死的现象,这个是属于抢占CPU的资源造成的,会导致服务器不堪自负,网站访问量猛增,程序中毒遭到很多的应用都在消耗服务器,最终死机无法响应。
3由于凌晨维护人员减少,会出现断电,温度过高等等环境因素的影响,使服务器死机等等,不过这种情况是很少见的,因为现在机房都有发电机备用避免停电造成的数据丢失,温度也是采用的恒温系统。
4有的企业为了节省服务器的费用,会租用较低配置的服务器来从事很多的工作,使服务器超负荷运转,结果是可以预料得到的,宕机就会经常发生。
5服务器宕机一般和内存有很大的关系,有些服务器运行了一段时间后速度就变慢了,基本上就是内存出现问题,要检查一下内存是否存在泄漏的问题。
服务器宕机会出现一系列的问题,造成的损失也是无法估量的,只有平时定期做好维护,在凌晨的时候也要注意掌握使用状况才能避免宕机,无论在任何时候,服务器的稳定运转才是最重要的。
这里需要说明一下,服务器宕机是什么意思呢? 我们日常说的“宕机”中的“宕”其实指的是英文“down”,宕机表示当前服务器或服务无响应或者不在线状态。
服务器的宕机可分为人为控制的宕机、不可控的宕机。 这两者有什么区别呢,下面来具体说明一下:
1、人为可控的宕机行为
服务器长时间的运行可能会带来一些(非致命性)问题,又或者我们需要对服务器进行软/硬件的升级维护时,可能需要停机或者重启 *** 作。这种情况下的宕机是可控的,在我们的计划之内。
2、不可控宕机行为
这种因素就很多了,比如说 服务器突然蓝屏、服务异常崩溃、突然断电断网了 ,这时候服务(器)就无法正常提供服务,这些都是不可控因素导致的。
而 在我们的日常运维工作中,计划性的宕机维护一般都选择在半夜 来做这些事,为什么呢,原因主要有这几点:
1、 减少对用户的影响
凌晨大家基本上都休息了,用户量较白天来说小得多,所以选择在此时进行系统及硬件的维护导致的宕机对用户的影响较小,就算有影响也只是影响小部分用户。
2、 有足够的时间来处理故障
在凌晨进行维护,就算有问题,技术人员也有足够的时间(比如说:00~05点)去处理故障。如果换成在日间维护,服务(器)宕机1小时以上投诉单全都过来了,压力很大的。
原理其实很简单:这就如同我们白天忙碌着很多事物性的工作,就如同搬运工一样,不停的搬运物品入库,只有在物品都搬运完了的时候,我们才能开始整理这些物品,整理仓库,。
其二,服务器在白天的时候,其实都在实时处理数据的“搬运工”状态,只有在实时性数据处理工作(搬运工作)完成以后,才有机会或才能腾出手来去做数据的归纳和整理。所以,服务器的宕机时间,通常会发生在使用率最低的时间段。仅此。位于美国加州中部的萨克拉门托(Sacramento)有三个身份:1850年代的淘金人口集散地、如今的加州州府和Twitter的数据中心。 7月26日上午8点20分,这个数据中心停止了工作。当你输入Twitter网址时,你会看到页面显示“Twitter目前因某些原因宕机,预计稍后恢复”的提示。这种状况持续了两个多小时,直到10点25分,Twitter才恢复正常。部分用户怀疑这和7月27日开幕的伦敦奥运会有关。
尽管Twitter的运营团队通过后台的流量图看到了即将到来的奥运会热潮对各项指标的拉升—这种可预期的、能带来大流量的事件,Twitter一般都会提前做准备,然而意外还是发生了。
在Twitter的预案里,如果这里发生了洪水、地震或者其他任何有可能导致服务器停止工作的问题,距离萨克拉门托965公里的另一个数据中心就会开始工作,它位于托管服务商Raging Wire旗下的一处建筑内,当然,情况也可能相反:Raging Wire这边出了问题,萨克拉门托开始工作。
无论哪一种情况,Twitter希望保证的是用户的不间断使用体验,即便是远在大洋彼岸的用户,也可以正常地把自己的消息Tweet出去,而不会感受到服务中断。
对于互联网公司而言,在线就是生命。Facebook早期迅速积累用户并不是由于它来自哈佛大学的好名声,而是它几乎从不宕机。这与当时强劲的竞争对手MySpace形成了鲜明对 照。
但在7月26日这一天,Twitter两个数据中心同时发生故障,全球用户的Twitter服务中止。Twitter提供的解释是由于“基础设施元件中的级联式漏洞”,但没有公布更详细的信息。在Twitter的成长史上几乎每年都会有多次重大宕机事故,宕机时网站就会显示出一幅有趣的:几只小鸟用线艰难地拉起一头搁浅的鲸鱼。
这是Twitter在两个月之内的第二次重大宕机故障。此前一次是6月21日,Twitter停止服务将近两个多小时。
Twitter负责工程技术的副总裁拉瓦德(Mazen Rawashdeh)事后解释说,Twitter在数据中心有两套能互相备份的数据系统同时出现了故障,这是基础设施上的“巧合事件”。通常情况下,如果一个系统出现故障,那么另一个将被紧急启用。而两套系统同时出现问题则比较少见,为避免类似故障重演,Twitter称计划对基础设施大幅投资。
数据中心问题一直困扰着Twitter。截至3月,Twitter已有14亿活跃用户,每天会发出34亿条Tweet。随着用户量和信息读写量的增长,Twitter迫切需要一个能自我完全掌控的数据中心。
Twitter早期租用第三方的数据服务,之后计划转向租用位于犹他州盐湖城的定制化数据中心,然而在去年该数据中心却出现了漏雨、电力不足等问题,于是Twitter不得不改变其计划,另谋他处。
在同一天,悲催的不仅仅是Twitter。谷歌的即时通讯服务Gtalk也在早上6点40分发生故障,并迟迟没有被修复。有用户报告,微软旗下面对企业客户的云服务工具Windows Azure在西欧地区也发生了宕机问题。
在宕机这段时间内,Gtalk用户发现虽然能够登录,但无法像以往一样正常发送信息以及进行语音、视频聊天。他们持续接到谷歌通过网页更新的问题修复状态通知,时间单位大约为半小时,而这一状态持续了近5个小时,算是谷歌史上罕见的长时间故障。习惯线上沟通的用户们不得不转向其他工具,有人说,接连两起宕机事件让他们有一种“全球停电”的感觉。
谷歌的数据中心分布全球且多达20多个,目前无法得知是哪一块数据中心发生了故障以致Gtalk瘫痪,谷歌至今也未解释具体原 因。
世界正在变成一个由数据洪流组成的存在,而整个世界也因几个重要信息节点而相互连接在一起。但即使是像谷歌这样著名的互联网公司也无法保证自己所有的服务全年都不出问题。
据谷歌称,其最受欢迎的服务Gmail电子邮件服务2010年全年宕机时间为7分钟,这已经是业内最短时间。根据Radicati Group的数据,电子邮件系统平均宕机时间为每月38小时。对比起来,Gmail可谓优秀。
一般造成系统不稳定甚至宕机的原因是多样的,开发安卓手机管理工具豌豆荚的豌豆实验室技术总监高磊对《第一财经周刊》介绍,在用户使用网站服务时,从用户输入信息,网络传送信息给网站服务器,网站服务器按照程序对用户要求进行处理,将结果返还用户,整个过程中其中一个环节出现问题就会导致网站的服务受到影响,甚至发生宕机而不可用。
引发问题的潜在因素多种多样,包括网站自身程序、服务器的 *** 作系统、硬件设备、机房与网络运营商等基础设施。
如果网站自身程序有Bug,可能会导致使用变慢,或部分功能失效;服务器的 *** 作系统也会出现漏洞,比如装有Linux部分版本的服务器就在本月因为闰秒问题而宕机;服务器硬件本身损坏,比如硬盘或内存都存在一定物理故障的机率。
而在基础设施上,机房停电或进水、遭到雷击等也会造成设备停止运行。最基础的问题是过热,因此大型数据中心旁边一般都有冷却装置。
6月底,美国一场风暴袭击了弗吉尼亚北部,大面积电力供应中断。而恰巧亚马逊在这里安置了US-East-1数据中心,因为停电,整个数据中心瘫痪。
亚马逊是业界领先的云服务提供商,其提供给网站以数据服务的云服务Amazon Web Services也因此一度中断服务。之后连锁反应便产生,使用其服务的Instagram、Pinterest、Quora、Netflix等知名网站也停止了服务,进而影响到各自的生态系统。
为避免风险,一些网络公司选择不把鸡蛋放在一个篮子里,设置多个数据中心,或者在使用云服务时同时选择多家供应商,当然,这也会增加成本。
据新浪微博技术总监杨卫华对《第一财经周刊》介绍,是否能稳定登录,响应的速度怎样,都会对用户的体验造成直接影响。新浪微博采用了分布式的架构,这意味着它没有把所有的服务器都放在新浪所在的北京,而是在国内多个主要城市都设置了数据中心,在突发事件发生后的流量处理和响应速度等各方面来保证用户体验。
你在宕机时体验到多少焦虑,稳定对于互联网公司就有多重要。
当越来越多的人被接入同一个网络─比如被称为“世界的脉搏”的Twitter,数据中心瘫痪的风险等级也相应增加。这些数据就存储在像加州萨克拉门托的大房子里,一旦宕机,空白也从这里开始。1、由 *** 作员意向 *** 作的重启——用于维护或更新服务器、部署机房或特殊情况等等。
2、非 *** 作员本身意愿造成的重启——如供电(欠压,过载,波动)、震动、硬件质量(热稳定性(热敏度)和抗干扰能力)、资源冲突、DirectX文件的损坏、系统不完善或瓶颈问题、病毒、灰尘、散热不良……等等原因而造成重启。
3、由于用户访问量过大,造成资源耗尽,或者你网站的数据超出你的空间限制范围大小也会出现宕机。
重启服务器的好处:
一般来说,如果是正常的重启是没有什么坏处,相反,对于 *** 作系统而言反而有好处。重启服务器可以清除内存碎片,重新优化软件调用级别,中断无用的网络端口等。
1、重启服务器对服务器的保养有一定的作用,释放内存,缓解CPU压力。服务器运行时间长,会造成很多冗余的DLL程序,导致系统运行速度较慢。系统重启会使电脑恢复到默认加载状态,也就是说在还未重启时的很多应用程序进程都驻留在内存中,会使电脑变慢,重启后它们就没了。
2、还有就是有的一些对电脑的配置要重新启动后才能生效。
3、重启服务器可以使有些程序可以得到更新。
重启服务器的危害:
1、正在进行写硬盘 *** 作时,即硬盘灯在不停地闪动时,断电或者强制重启,对硬盘的伤害最大。
2、热启动(CTRL+ALT+DEL),对硬件上不会有损伤(软件上有时会发生程序非法中止导致数据丢失的问题);如果是冷启动(直接开关电源),就会对硬件尤其是硬盘造成伤害。除非无法正常关机可以考虑热启动。
3、重启的突然来电会有大量电流涌入电源,反复进行会使机器寿命大大降低,而且在硬盘正在读写的时候突然地断电也非常容易引起硬盘出现坏道从而损失数据。
4非正常重启的危害:首先,这样轻则会使硬盘掉数据,造成逻辑坏道,重则造成物理的坏道,损坏硬盘磁头伺服电路。还有,这也会造成主板的二度伤害,主板在一通一断当中对电路部分的冲击是比较大的。再则也会对电源造成一定的损害。
7月13日晚间,“b站崩了”冲上微博热搜榜第三位。消息称,B站官网疑似出现服务器宕机事故,页面提示称“非常抱歉,该页面暂时无法访问”。B站访问异常后,有消息称是因为B站大楼起火了。当晚,上海消防第一时间回应称,“经了解,位于上海市政立路485号国正中心内的哔哩哔哩d幕网B站(总部)未出现火情,未接到相关报警。”
7月14日凌晨2点,哔哩哔哩d幕官微更新动态称“昨晚,B站的部分服务器机房发生故障,造成无法访问。技术团队随即进行了问题排查和修复,现在服务已经陆续恢复正常。”
官微致歉表示“耽误大家看视频了,对不起!”。
B站一季亏9亿,港股市值损760亿
6月26日,B站董事长兼CEO陈睿,这位身家80亿的富豪,在十二周年庆上透露,B站的月均活跃用户达到223亿,其中35岁及以下用户占比超86%。不过,B站虽吸引了大量年轻用户,但目前还处于亏损状态,有活力却不盈利。一季报显示,B站当季实现营收39亿元,同比增长68%,净亏损则高达905亿元,同比增加679%。
7月14日,哔哩哔哩—SW开盘后走跌,截至当日10时左右,微跌161%,报854港元/股,总市值3282亿港元。不过,若从哔哩哔哩-SW 6月底的高点1052港元/股算起,其股价至今已跌近19%,市值蒸发超760亿港元。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)