首先分清导致服务器出故障的因素:
1、外部攻击
2、内部攻击
3、运维误 *** 作
服务器宕机怎么办服务器故障应急预案
不管是外部攻击还是内部故障,备份好以及冗余措施,可以使宕机时间缩短到最低。
备份问题尽管听起来不可思议,但在实践中,不少企业并未建立起一套检验过的备份系统。备份的意义在于危急时刻可以快速恢复或重建生产系统。在企业网络中,经常出现的问题实际上是:
备份步骤的瑕疵导致并未完成正确的备份过程
由于有限的存储空间导致一定时间后因存储空间耗尽导致的随后备份失败
备份介质受损导致无法成功恢复
传统上,磁带因其低造价以及高存储密度使其成为了理想的备份介质。然而,这种传统备份介质的几个致命缺点经常使其内含的数据变得不可存取:
丢失的磁带索引卡片
磁带介质在存储过程中容易受到外界磁场影响
介质本身损坏
介质读取过程中被读取设备损坏
此外,磁带备份介质本身存储在磁带仓库中,从仓库检索所需的备份磁带、转移至数据中心并重新加载数据的时间消耗通常也是客观的。
即使有一套备份系统仍然是不能抵挡所有的意外事故的。2014 年, Samsung 数据中心的一场大火使其云服务暂停服务。如果没有异地备份,这场大火将使其本地备份的恢复变得极为困难。
冗余对于突发性事件来说,尽快恢复,或者是持续的提供服务是非常重要的。本月,某知名支付公司因数据中心网络连接性故障导致了一段时间的服务中断。如果有更好的冗余方案,此种事故的影响面将会得以降低,甚至会化解为用户不可感知的内部事故。
大部分服务器都有两部独立的 PSU,任意一部 PSU失效并不会影响其正常服务;一般来说,服务器的两部 PSU 将连接到两路不同的电路或不间断电源上以避免市电失效;数据中心电源多数同时配备 UPS 和柴油发电机来避免发电公司未通知的停止供电服务导致的服务中断。网络亦然;同时接入多路 ISP 线路,并对其进行独立布线,同时在多条线路上宣告地址,便可使得网络服务的鲁棒性更高。
在系统的视角上,只有同时配置好的备份以及冗余方案,才能提高可用性,避免非可控因素导致的长时间服务中断。
服务器宕机怎么办服务器故障应急预案就为大家介绍到这里
谷歌数据中心发生爆炸,这次事件造成三位技术人员受伤。同时这三位人员现在已经被紧急送往当地的医院进行治疗。发生这起事件的原因是出现了电气爆炸,同时这三位人员当时正在中心大楼附近进行维修工作。
这次事件的发生已经早有预警,前几个月谷歌的数据中心突然出现了问题。并且很多客户反映根本没有办法使用搜索引擎服务,由此影响了使用者正常的工作。虽然暂时不清楚这两次事件是否有直接联系,不过提醒每一位工作人员在工作期间一定要以自己的身体安全为主。这次事件影响比较严重,同时会带来一个火热的冲击波,会对周围环境造成一定的损害,所以网友非常担忧。事故地址较为偏僻,没有收到其他人员伤亡报告。谷歌对这些事件的重视程度非常高,相信可以早日修复。
在美国谷歌一共有14个数据中心。这次事件发生在康瑟尔布拉夫斯,它是谷歌最大的数据中心之一。如果想要进行后期修复的话,需要花费较多的时间以及精力。用户可以在这段时间内用其他的浏览器。大家可以保持耐心,这是一个异常繁重的任务。关于具体原因现在正在进一步的调查当中,也许后续会向大家披露更多细节。
现在上网群体越来越庞大,因此加大了工作人员的工作量。为了适应这个社会以及时代的发展,所以部署了更多的服务器以及大数据平台,因此大家猜测可能存在着高负荷运转问题。也许是因为谷歌很长时间没有进行维修以及故障检测或者没有及时发现问题所在。因此其他平台需要保持警惕,可以加大人力投入成本,从这次事件中吸取一定的教训。
事件一:Google Gmail邮箱爆发全球性故障Gmail是Google在2004年愚人节推出的免费邮件服务,但是自从推出这项服务以来,时有发生的“中断”事件就成为业界的广泛讨论的话题。
2009年2月24日,谷歌的Gmail电子邮箱爆发全球性故障,服务中断时间长达4小时。谷歌解释事故的原因:在位于欧洲的数据中心例行性维护之时,有些新的程序代码(会试图把地理相近的数据集中于所有人身上)有些副作用,导致欧洲另一个资料中心过载,于是连锁效应就扩及到其它数据中心接口,最终酿成全球性的断线,导致其他数据中心也无法正常工作。
事件过去数日之后,Google宣布针对这一事件,谷歌向企业、政府机构和其他付费GoogleAppsPremier Edition客户提供15天免费服务,补偿服务中断给客户造成的损失,每人合计205美元。
事件二:微软的云计算平台Azure停止运行。
2009年3月17日,微软的云计算平台Azure停止运行约22个小时。
虽然,微软没有给出详细的故障原因,但有业内人士分析,Azure平台的这次宕机与其中心处理和存储设备故障有关。Azure平台的宕机可能引发微软客户对该云计算机服务平台的安全担忧,也暴露了云计算的一个巨大隐患。
不过,当时的Azure尚处于“预测试”阶段,所以出现一些类似问题也是可接受。提前暴露的安全问题,似乎也给微软的Azure团队敲了一次警钟,在云计算平台上,安全是客户最看重的环节。
2010年,Azure平台正式投入商用,成为开发者喜爱的云平台之一。
Salesforcecom宕机事件
事件三:Rackspace云服务中断。
2009年6月,Rackspace遭受了严重的云服务中断故障。供电设备跳闸,备份发电机失效,不少机架上服务器停机。这场事故造成了严重的后果。
为了挽回公司声誉,Rackspace更新了所有博客,并在其中详细讨论了整个经过。但用户并不乐意接受。
同年11月,Rackspace再次发生重大的服务中断后。事实上,它的用户是完全有机会在服务中断后公开指责这位供应商的,但用户却表示“该事故并不是什么大事。”看来Rackspace不是走好运,而是持续提供了充足更新并快速修复了这些错误。
在服务中断致使其业务脱机15到20分钟后,博客服务提供商Posterous的创建者之一Sachin Agarwal就发表了自己的观点。Agarwal对此并不生气,相反,他表示Rackspace在这件事上做得“很透明”,处理问题也很及时到位。
看来,如果没有严重数据的丢失,并且服务快速恢复,用户依旧保持愉快的使用体验。对于所谓的“100%正常运行”,大多数用户似乎不会因为偶尔的小事故而放弃供应商,只是不要将问题堆积起来。
事件四:Salesforcecom宕机。
2010年1月,几乎6万8千名的Salesforcecom用户经历了至少1个小时的宕机。
Salesforcecom由于自身数据中心的“系统性错误”,包括备份在内的全部服务发生了短暂瘫痪的情况。这也露出了Salesforcecom不愿公开的锁定策略:旗下的PaaS平台、Forcecom不能在Salesforcecom之外使用。所以一旦Salesforcecom出现问题,Forcecom同样会出现问题。所以服务发生较长时间中断,问题将变得很棘手。
这场服务中断还没有对公司造成很大影响,它同VMware合作的VMforce在今年春季引起很大反响,同时Salesforcecom首席执行官在服务中断出现后的一个月内又开始宣称Salesforcecom是“最大的云计算企业”。
这次中断事故让人们开始质疑Salesforecom的软件锁定行为,即将该公司的Forcecom平台绑定到Salesforcecom自身的服务。但总之,这次事件只是又一次地提醒人们:百分之百可靠的云计算服务目前还不存在。
微软爆发BPOS服务中断事件
事件五:Terremark宕机事件。
2010年3月,VMware的合作伙伴Terremark就发生了七小时的停机事件,让许多客户开始怀疑其企业级的vCloud Express服务。此次停机事件,险些将vCloud Express的未来断送掉,受影响用户称故障由“连接丢失”导致。据报道,运行中断仅仅影响了2%的Terremark用户,但是造成了受影响用户的自身服务瘫痪。此外,用户对供应商在此次事情上的处理方式极为不满意。
Terremark官方解释是:“Terremark失去连接导致迈阿密数据中心的vCloud Express服务中断。"关键问题是Terremark是怎么解决这个突发事件的,这家公司并没有明确的方案,只是模糊地对用户担保,并对收到影响的用 户进行更新。如果一个运供应商想要说服企业用户在关键时刻使用它们的服务,这样的方式是达不到目的的。
Terremark的企业客户Protected Industries的创立者John Kinsella,在抱怨服务中断让他心灰意冷时称该供应商是“杂货铺托管公司”。Kinsella将Terremark与Amazon做了比较,他抱怨说,Terremark才开始考虑使用的状态报告和服务预警Amazon早已实现。
当然,在对vCloud Director的大肆宣传以及VMworld 2010兴奋地揭幕过后,Terremark服务中断事件似乎只留下了很小的余波。
事件六:Intuit因停电造成服务中断。
2010年6月,Intuit的在线记账和开发服务经历了大崩溃,公司对此也是大惑不解。包括Intuit自身主页在内的线上产品在内近两天内都处于瘫痪状态,用户方面更是惊讶于在当下备份方案与灾难恢复工具如此齐全的年代,竟会发生如此大范围的服务中断。
在赔偿方面,亚马逊表示,将向在此次故障中受到影响的用户提供10天服务的点数(Credit),这些点数将自动充值到受影响的用户帐号当中。但是,对于以后如何避免出现类似事件,并没有提到任何法律上的保证。
据了解,亚马逊云服务中断持续了近4天,但是在法律上却没有违反亚马逊EC2服务的服务等级协议(简称SLA)。亚马逊的解释是,亚马逊出现故障的是EBS和RDS服务,而不是EC2服务,从法律上讲,它并没有违反服务等级协议。并且,对于亚马逊提出的应对宕机事件的建议——多点备份,仅仅是一个技术规范并非合同保障。这些,似乎都不能给云服务的用户带来信心。
表面看来,亚马逊宕机事件似乎有一个完美结局:厂商及时修复漏洞,书面道歉,赔偿损失。但是,用户心理上对云服务的恐惧似乎并不那么容易康复,未来,亚马逊可能不仅仅要在技术上、还需要在制度和法律上给予用户更多的保证,才能才能渐渐修复被此次宕机事件损坏的名声。
历数频频发生的云服务事件
历数频频发生的云服务事件
不仅亚马逊,云计算领域充满竞争的其他公司,如谷歌和微软等,在近几年也频频发生云服务“中断”事件。
事件一:Google Gmail邮箱爆发全球性故障
Gmail是Google在2004年愚人节推出的免费邮件服务,但是自从推出这项服务以来,时有发生的“中断”事件就成为业界的广泛讨论的话题。
2009年2月24日,谷歌的Gmail电子邮箱爆发全球性故障,服务中断时间长达4小时。谷歌解释事故的原因:在位于欧洲的数据中心例行性维护之时,有些新的程序代码(会试图把地理相近的数据集中于所有人身上)有些副作用,导致欧洲另一个资料中心过载,于是连锁效应就扩及到其它数据中心接口,最终酿成全球性的断线,导致其他数据中心也无法正常工作。
事件过去数日之后,Google宣布针对这一事件,谷歌向企业、政府机构和其他付费GoogleAppsPremier Edition客户提供15天免费服务,补偿服务中断给客户造成的损失,每人合计205美元。
事件二:微软的云计算平台Azure停止运行。
2009年3月17日,微软的云计算平台Azure停止运行约22个小时。
虽然,微软没有给出详细的故障原因,但有业内人士分析,Azure平台的这次宕机与其中心处理和存储设备故障有关。Azure平台的宕机可能引发微软客户对该云计算机服务平台的安全担忧,也暴露了云计算的一个巨大隐患。
不过,当时的Azure尚处于“预测试”阶段,所以出现一些类似问题也是可接受。提前暴露的安全问题,似乎也给微软的Azure团队敲了一次警钟,在云计算平台上,安全是客户最看重的环节。
2010年,Azure平台正式投入商用,成为开发者喜爱的云平台之一。
Salesforcecom宕机事件
事件三:Rackspace云服务中断。
2009年6月,Rackspace遭受了严重的云服务中断故障。供电设备跳闸,备份发电机失效,不少机架上服务器停机。这场事故造成了严重的后果。
为了挽回公司声誉,Rackspace更新了所有博客,并在其中详细讨论了整个经过。但用户并不乐意接受。
同年11月,Rackspace再次发生重大的服务中断后。事实上,它的用户是完全有机会在服务中断后公开指责这位供应商的,但用户却表示“该事故并不是什么大事。”看来Rackspace不是走好运,而是持续提供了充足更新并快速修复了这些错误。
在服务中断致使其业务脱机15到20分钟后,博客服务提供商Posterous的创建者之一Sachin Agarwal就发表了自己的观点。Agarwal对此并不生气,相反,他表示Rackspace在这件事上做得“很透明”,处理问题也很及时到位。
看来,如果没有严重数据的丢失,并且服务快速恢复,用户依旧保持愉快的使用体验。对于所谓的“100%正常运行”,大多数用户似乎不会因为偶尔的小事故而放弃供应商,只是不要将问题堆积起来。
事件四:Salesforcecom宕机。
2010年1月,几乎6万8千名的Salesforcecom用户经历了至少1个小时的宕机。
Salesforcecom由于自身数据中心的“系统性错误”,包括备份在内的全部服务发生了短暂瘫痪的情况。这也露出了Salesforcecom不愿公开的锁定策略:旗下的PaaS平台、Forcecom不能在Salesforcecom之外使用。所以一旦Salesforcecom出现问题,Forcecom同样会出现问题。所以服务发生较长时间中断,问题将变得很棘手。
这场服务中断还没有对公司造成很大影响,它同VMware合作的VMforce在今年春季引起很大反响,同时Salesforcecom首席执行官在服务中断出现后的一个月内又开始宣称Salesforcecom是“最大的云计算企业”。
这次中断事故让人们开始质疑Salesforecom的软件锁定行为,即将该公司的Forcecom平台绑定到Salesforcecom自身的服务。但总之,这次事件只是又一次地提醒人们:百分之百可靠的云计算服务目前还不存在。
微软爆发BPOS服务中断事件
事件五:Terremark宕机事件。
2010年3月,VMware的合作伙伴Terremark就发生了七小时的停机事件,让许多客户开始怀疑其企业级的vCloud Express服务。此次停机事件,险些将vCloud Express的未来断送掉,受影响用户称故障由“连接丢失”导致。据报道,运行中断仅仅影响了2%的Terremark用户,但是造成了受影响用户的自身服务瘫痪。此外,用户对供应商在此次事情上的处理方式极为不满意。
Terremark官方解释是:“Terremark失去连接导致迈阿密数据中心的vCloud Express服务中断。"关键问题是Terremark是怎么解决这个突发事件的,这家公司并没有明确的方案,只是模糊地对用户担保,并对收到影响的用 户进行更新。如果一个运供应商想要说服企业用户在关键时刻使用它们的服务,这样的方式是达不到目的的。
Terremark的企业客户Protected Industries的创立者John Kinsella,在抱怨服务中断让他心灰意冷时称该供应商是“杂货铺托管公司”。Kinsella将Terremark与Amazon做了比较,他抱怨说,Terremark才开始考虑使用的状态报告和服务预警Amazon早已实现。
当然,在对vCloud Director的大肆宣传以及VMworld 2010兴奋地揭幕过后,Terremark服务中断事件似乎只留下了很小的余波。
事件六:Intuit因停电造成服务中断。
2010年6月,Intuit的在线记账和开发服务经历了大崩溃,公司对此也是大惑不解。包括Intuit自身主页在内的线上产品在内近两天内都处于瘫痪状态,用户方面更是惊讶于在当下备份方案与灾难恢复工具如此齐全的年代,竟会发生如此大范围的服务中断。
但这才是开始。大约1个月后,Intuit的QuickBooks在线服务在停电后瘫痪。这个特殊的服务中断仅仅持续了几个小时,但是在如此短时间内发生的宕机事件也引起了人们的关注。
即使一些用户要求“武装”其品牌,Intuit依旧拥有4百万用户并继续进军PaaS和Web服务供应商之路。公司没有Amazon和Rackspace这样的知名度,中断也没有造成很大的影响。Intuit主要因Quicken而闻名。
事件七:微软爆发BPOS服务中断事件。
2010年9月,微软在美国西部几周时间内出现至少三次托管服务中断事件向用户致歉。这是微软首次爆出重大的云计算事件。
事故当时,用户访问BPOS(Business Productivity Online Suite)服务的时候,如果使用微软北美设施访问服务的客户可能遇到了问题,这个故障持续了两个小时。虽然,后来微软工程师声称解决了这一问题,但是没有解决根本问题,因而又产生了9月3日和9月7日服务再次中断。
微软的Clint Patterson说,这次数据突破事件是由于微软在美国、欧洲和亚洲的数据中心的一个没有确定的设置错误造成的。BPOS软件中的离线地址簿在"非常特别的情况下"提供给了非授权用户。这个地址簿包含企业的联络人信息。
微软称,这个错误在发现之后两个小时就修复了。微软称,它拥有跟踪设施,使它能够与那些错误地下载这些数据的人取得联系以便清除这些数据。
微软的这一系列事件让那些一度考虑使用云计算的人感到忧虑,特别是让考虑使用与Office套装软件捆绑在一起的微软主要云计算产品Office 365的那些人感到担心。可见,就算是著名的微软公司,面对提供公有云服务的安全问题,也显得有些束手无策。所以,业界流程2011年将成为云计算应用之年,这一观点就很难让人信服了。
谷歌邮箱用户数据泄漏事件
事件八:谷歌邮箱再次爆发大规模的用户数据泄漏事件。
2011年3月,谷歌邮箱再次爆发大规模的用户数据泄漏事件,大约有15万Gmail用户在周日早上发现自己的所有邮件和聊天记录被删除,部分用户发现自己的帐户被重置,谷歌表示受到该问题影响的用户约为用户总数的008%。
谷歌在Google Apps状态页面表示:"部分用户的Google Mail服务已经恢复过来,我们将在近期拿出面向所有用户的解决方案。"它还提醒受影响的用户说:"在修复帐户期间,部分用户可能暂时无法登录邮箱服务。"
Google过去也曾出现故障,但整个帐户消失却是第一次。在2009年出现最严重的一次故障,有两个半小时服务停顿,许多人当时曾向Google投诉需用这个系统工作。接二连三出错,令全球用户数小时不能收发电邮。Google及微软等科技企业近年大力发展云计算,盼吸引企业客户,但云计算储存多次出事,恐打击用户信心。
事件九:亚马逊云数据中心服务器大面积宕机。
2011年4月22日,亚马逊云数据中心服务器大面积宕机,这一事件被认为是亚马逊史上最为严重的云计算安全事件。
由于亚马逊在北弗吉尼亚州的云计算中心宕机,包括回答服务Quora、新闻服务Reddit、Hootsuite和位置跟踪服务FourSquare在内的一些网站受到了影响。
4月30日,针对上周出现的云服务中断事件,亚马逊周五在网站上发表了一份长达近5700字的报告,对故障原因进行了详尽解释,并向用户道歉。亚马逊还表示,将向在此次故障中受到影响的用户提供10天服务的点数(Credit),将自动充值到受影响的用户帐号当中。
亚马逊在周五的报告中指出,公司已经知道漏洞和设计缺陷所在的地方,它希望通过修复那些漏洞和缺陷提高EC2(亚马逊ElasticComputeCloud服务)的竞争力。亚马逊已经对EC2做了一些修复和调整,并打算在未来几周里扩大部署,以便对所有的服务进行改善,避免类似的事件再度出现。
此事件也引起人们对转移其基础设施到云上的担忧:完全依靠第三方来去报应用程序的可用性是否可行。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)