该客户升级了刀片网络服务器,并购买了两台CiscoB200M3。交付后,大家询问了B200M3的版本,然后升级了UCSManager。然而,升级后,他们发现两台刀片网络服务器仅在发现总过程的7%后就发生了故障!如下图所示:
此外,查询告警信息和Cisco交换机文本文档的内容,如下所示:
图片中的文本文档都没有得到有效的信息内容。有什么问题?为了进一步证实,我们做了以下实际 *** 作:
1.卸下刀片网络服务器,只安装一个CPU和一个运行内存。在这种情况下,网络服务器可以发现依据。
2.安装两个CPU和两个运行内存。此时,常见故障条件仍然不成立。
3.CPU1和CPU2互换,CPU2独立提交订单,CPU1带着刀片回来,只装了CPU2和一个运行内存。发现的整个过程可以基于。
4.把原来的B200M3运行内存全部拆下来换成现在的运行内存,装了两个CPU,但是整个发现的过程还是不能以它为基础。
5.CPU2的插槽只装了一个CPU和一个运行内存,还是不行(后来才知道CPU1的插槽1只能插一个CPU)
6.如果拆下并更换刀片,它将不起作用...
7.恢复,也不能...
………………
试了很多次,还是不行。分析判断问题可能出在主板上。因此,带着这个疑问向思科交换机开了一个案例。之后思科交换机的TAC技术工程师收集日志,根据日志发现问题也可能出在主板上。最后我给大家做了一个RMA,又把两块主板寄回去了!
希望总是幸福的,但终究只是希望!
RMA的两块主板到了之后,大家插上CPU,运行内存等元器件,然后插入刀盒。鬼撞又发生了,整个发现过程还是没动,直到7%!两件都是那样的!
我觉得不自然,但问题还是出现了!
大家把出现的问题汇报给大老板,大老板觉得可疑。不太可能发送的所有问题都是坏的!所以元旦后第一天,大老板就来指导了。
BOSS一查询,发现这两个刀片的boardcontroller的固件没有显示信息版本,也就是看不出是什么版本。会不会是这个导致的问题?因此,根据SSH登录到UCSManager,进行了以下实际 *** 作:
C6248A-A#范围机箱2
c6248A-A/机箱#范围服务器6
c6248A-A/机箱/服务器#范围板控制器
c6248A-A/机箱/服务器/板控制器#激活固件14.0
警告:提交时,此命令将重置端点
c6248A-A/机箱/服务器/板控制器#提交缓冲区
当刀锋再次被发现的时候,其实是基于哪7%直到发现成功!至此,RMA退回的两个刀片的问题已经处理完毕!
大老板,嘎嘎...(**)
两个刀片都正常后,我们想知道另外两个刀片是不是也是这个原因?所以大家又一直乱搞,把原来的刀片网络服务器重新插入刀箱,进行检查。众所周知,没有成功。最后没办法,只好把常见的故障刀片发出去了!
**********************************************************************************************
摘要:
1。常见故障一定要认真解决,每个阶段都不能忽视。
2。你不能用你的思维定势去看待每一个通病。猪是被砍倒树枝打死的,兔子不一定是被砍倒树枝打死的。我和我的同事在研究RMA刀片时犯了这个错误。
3。解决常见故障时让事情顺利!一点一点,一步一步来!
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)