华为大数据服务器故障

华为大数据服务器故障,第1张

华为大数据服务器故障可能是由于硬件、软件或网络故障引起的,需要进行排查和维修。首先,应检查服务器的硬件状态,检查服务器的连接状态,检查服务器的网络状态,检查服务器的软件状态,检查服务器的配置状态,检查服务器的系统状态,检查服务器的日志状态,检查服务器的安全状态等。如果排查和维修后仍然无法解决问题,则可以联系华为技术支持部门,以获得更多帮助。

华为服务器h02故障处理方法如下:
1、先诊断外部,后诊断内部。诊断故障时,应先排除外部的因素,如电源中断、对接设备故障等。
2、先诊断网络,后诊断网元。根据网络拓扑图,分析网络环境是否正常、互连设备是否发生故障,准确定位出是网络中哪个网元发生故障。
3、先高速部分,后低速部分。从告警信号流中可以看出,高速信号的告警会引起低速信号的告警,在故障诊断时,应先排除高速部分的故障。

一 对于华为服务器21f告警,可以根据以下步骤解决:
1、收集和分析告警信息:诊断错误号,确定告警涉及的设备和模块及错误原因,并收集相关软硬件状态以及告警发生的时间和次数;
2、查找相关性能指标,查明告警发生时有无异常指标:比如CPU、内存、磁盘使用率、网络流量和端口占用率等;
3、排查原因:针对收集的信息和指标,排查故障原因,分析其中可能存在的网络、软件或者硬件问题;
4、采取措施治理:和专家沟通,依据原因调整服务器系统参数或者修改网络配置,修改 *** 作系统与数据库服务,重装内核驱动,对故障硬件进行更换;
5、检查告警是否消失:排查完成后,检查告警是否消失,检查服务器性能是否恢复正常。

4月10日,华为云出现故障,用公关的术语来说,是遇到了危机。

一个云厂商,无论技术有多强,都不可能保证100%不出问题,关键是出了问题之后怎么办?如何进行危机公关?

华为成立三十多年来,遇到过太多的危机,最大的危机当属去年的美国禁令,堪称是“灭顶之灾”。在应对危机上,华为和其创始人任正非展示了非常独特的危机公关之道,非常值得行业思考和借鉴。

其一,危机公关的核心不是公关,而是以客户为中心,去解决问题。

大多数企业在危机公关时,最大的误区是掉入公关之中,纠结于什么时候应该回应,声明如何写。殊不知,公关声明发布得再快、内容写得再好,都不是重点。重点是什么?是解决客户的问题,将客户的损失降到最低。

美国事件中,任正非做的最核心工作,是补漏洞。大家一定对任正非展示的那个千疮百孔的飞机印象深刻,“我们现在的目的就是要补全飞机上的洞,承受美国的打击”,任正非的补漏洞就是以客户为中心、去解决问题,保证客户的业务连续性。比如面对谷歌系统禁用,任正非调集了几千人的科学家补漏洞,从而可以让华为手机的用户能够继续体验不中断。

华为云的这次故障也是如此,其第一时间做的事情,是抢修故障,恢复客户业务。据了解,4月10日中午,DCS、RDS所有资源状态已经恢复,已经报障的大部分客户业务已经恢复正常。

如果说面对危机时,公关如何做是“术”,那么以客户为中心,尽快解决问题,而且举一反三、杜绝问题再发生则是“道”。

术容易,但是道却难得多,因为道来自于企业的价值观、初心。任正非和华为之所以这样做,就在于客户为中心的价值观已经深入到骨髓中。曾经有人问任正非,华为的管理模式是什么?任正非回答:没有模式。有人问我们,华为的商道是什么?我们就没有商道,我们就是以客户为中心,就要让客户高兴。

其二,避开危机的办法,是不避开危机,公开、透明是解决危机的最好办法。

很多公司遇到负面新闻或者质疑,下意识的选择都是躲避或者沉默,他们往往存有侥幸心理,觉得这样做就能蒙混过关。但是,殊不知这种举动无异于掩耳盗铃,你越想躲避,往往越会激起公众的关注,进而让事态恶化、无法收场。

美国事件中,华为面临的最大质疑是技术后门、数据情报收集等。任正非是如何做的呢?他没有任何回避,而是做到完全的公开、透明。华为主动给美国媒体发出了公开信,邀请他们到华为来看一看,华为所有高管都可以回答问题,华为的研发实验室、技术发布会也对他们开放。一贯低调的任正非,更是站了出来,频繁、持续地接受各国媒体的采访,而且对于任何敏感问题都不回避,诚恳、理性、坦诚,全世界的客户和公众由此重新认识了华为。

甚至,任正非还有一个更加出乎意料的举动:把5G专利以公平、无歧视的方式许可给美国公司。“我们是真心诚意的想做这个技术许可,我们不会留后手和秘密。我们对被许可方开放透明,不是我们傻,而是以此让华为公司19万员工面对一个强大的竞争对手,谁也不敢睡懒觉。” 这样的公开和透明,真的是绝无仅有了。

在这次华为云的故障事件中,华为也是第一时间就在官方微博发布公告,通报故障以及修复进展,没有隐瞒、没有迟疑。

俗话说,同甘苦易、共患难难,做业务更是如此,正常时候各个厂商可能看起来差不多,但是遇到问题或者挑战时,往往才能知道谁才真的值得信任。

所以,总结起来,任正非和华为的危机公关之道,其实很简单,那就是不用公关的办法做危机公关,一切回归商业本质。始终以客户为中心,所以遇到问题时,自然第一要做的是解决问题,将客户损失降到最低;始终保持透明,所以遇到问题时,才不会推诿隐瞒,而是直面问题、公开透明。

如此而已。

一、磁盘阵列出现故障的过程
本次进行数据恢复的是某个网站的一个2850型号服务器,这台服务器一共安装有6块硬盘,每块硬盘的容量为300GB,服务器上层安装了linux *** 作系统和EXT3文件系统。在服务器运行过程中有一块硬盘因为未知原因离线,但是由于服务器的阵列级别为raid5,所以一块硬盘掉线并未影响服务器的正常运行,直到又出现一块硬盘掉线,服务器系统瘫痪。
二、强制上线 *** 作
管理员查看阵列情况后并不能确定两块硬盘的离线顺序,只好选择其中一块硬盘尝试强制上线 *** 作(强制上线 *** 作具有一定风险,如进行 *** 作需提前备份)。管理员将其中的一块硬盘强制上线后发现 *** 作系统在启动时出现异常,为了避免损坏数据,只好将服务器关机并联系数据恢复机构进行专业修复。
三、数据恢复故障分析
在数据恢复 *** 作中经常会遇到这类故障情况,很多管理员由于发现不及时或者第一块硬盘掉线时没有及时处理导致两块硬盘甚至多块硬盘掉线,这样阵列就会彻底崩溃。此时管理员可以对后离线的硬盘进行强制上线 *** 作,虽然具有一定的风险但是也具有一定的可 *** 作性行。
但是在进行强制上线时最好由经验丰富的管理员或者数据恢复工程师进行 *** 作,以免对数据造成不可挽回的破坏,今天这个案例就是如此。
四、数据恢复过程
首先将服务器内的所有硬盘进行镜像备份,在备份过程中发现除了已经掉线的两块硬盘外,其他正常硬盘内也有存在坏道,但并没有离线所以暂不必进行特殊处理。备份后分析原raid阵列的组成结构,构建虚拟raid环境。由于管理员曾经对阵列进行强制上线 *** 作,破坏了部分数据结构,所以需要恢复人员在验证raid结构后手工修复被破坏的那部分结构,然后导出阵列内的所有数据。这样数据就恢复成功了,只需重新搭建阵列并迁移就可以了。
五、数据恢复结论
本次数据恢复一共用时2个工作日,所有数据恢复成功。


欢迎分享,转载请注明来源:内存溢出

原文地址: https://outofmemory.cn/zz/10372690.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-08
下一篇 2023-05-08

发表评论

登录后才能评论

评论列表(0条)

保存