在关键系统中降低灾难性硬件故障引起的损失

在关键系统中降低灾难性硬件故障引起的损失,第1张

许多原始设备制造商(OEM)在服务器、PC和其它系统的设计中都采用了监控器件来保证系统电源出现问题时把它及时关闭,从而避免损坏硬件。
但是,很少有OEM厂商在如何针对电源单元(PSU)问题做出反应方面为最终用户提供选择。例如,考虑一个运行繁忙的电子商务网站的任务关键服务器。如果系统检测到过压情况,服务器很可能会立即关闭以保护硬件。反应如此快使得系统无法软关机,因此很可能会丢失数据并失去潜在的客户。
在许多情况下,数据要远比硬件重要,根据问题的类型,在允许系统软关机的情况下仍可使硬件风险最低。俗话说“条条大路通罗马”,系统设计的目标是使系统在此时的总体损失最小,因此处理电源问题的方法也不止一种。
几乎任何类型系统中都会发生的一种情形是电源故障导致电压下降。图1给出了一个简单的例子,利用Analog Devices公司ADM1024等系统硬件监测IC来监测两路独立电源。对ADM1024器件进行编程,当电压高于预先编程设定的一个电压数值或低于另一个预先设定的电压数值时,器件将产生一个中断,也就是说,该器件为每个电压通道提供了一个内置的窗口比较器。如果一路电源的电压输出开始漂移,那么当输出超出编程设定的电压范围时,器件将会自动产生一个中断。然后由系统管理控制器决定如何针对这一信息做出响应。请注意独立的过压保护机制,这是为了在严重过压时实现硬件保护。还有这样的可能性,就是在系统管理控制器从系统监测电路中读取电压数值并决定行动方式时,系统电压可能会上升到危险的水平。最终是否需要此类保护电路取决于每个电源的故障机制是否会导致PSU故障过程中出现危险性的过压情况。
在关键系统中降低灾难性硬件故障引起的损失,第2张
图1  监测两个独立的PSU


在关键系统中降低灾难性硬件故障引起的损失,第3张
图2  PSU故障时的可能响应


在关键系统中降低灾难性硬件故障引起的损失,第4张
图3  管理不同级别的故障


图2中的流程图示出了可供用户选择的可能 *** 作,需要指出的重要一点是电源出现问题时数据备份的方式。当系统电源不稳定时,如果用户试图保存数据很容易导致数据破坏。这种状态下的连续 *** 作很容易损坏整个数据库,从而使得整个电源故障响应机制出现问题。如果保护未保存数据的成本远小于数据丢失的成本,那么可以为紧急关机提供一个替代存储位置。
通过将当前事务拷贝到一个替代位置(例如,拷贝到非易失性RAM或备用硬盘驱动器中)以便进行事后分析,可以将损坏已稳定数据区域的可能性降到最小。如果能够通过这种方式保存当前数据,那么即使受到一定的破坏,仍有机会恢复数据。
不管怎样,在系统设计时都可以确定哪种电源故障状态容易导致数据破坏,同时通过缩小电源监测IC的窗口比较器范围来降低数据破坏的可能性。
结合其它监测到的信息,包括远程温度、IRQ、风扇速度等,可以获得系统故障的更确切情况,从而使设计人员可更好地针对不同情况做出反应。
然而,响应速度最快的方式是利用监测IC中断来报告可能的系统问题,中断表明系统出现了故障,然后系统管理控制器立即对这一信息做出反应。在系统中,PSU自身问题会很快表现出来,而对有些问题,系统管理控制器读取寄存器并试图形成解决方案的过程可能就太慢了。解决这一问题的方法是利用两片监测IC,如Analog Devices公司的ADM1024(参看图3)。每片IC的19引脚(Vccp1)连接在一起。在一片IC上,对窗口比较器编程来监测较小的PSU问题;在第二片IC上,对窗口比较器编程来监测更为严重的问题(比如,其界限可编程为接近系统安全工作的最大和最小额定电压)。来自第一片监测IC的中断使系统通知用户出现问题,并立即执行预设定的策略,将服务中断造成的影响降到最小。来自第二片IC的中断表明系统处于崩溃的危险边缘,系统应当采用更为迫切的反应措施。
尽管这种机制的可行性要视系统而定,但通常在检测到系统出现问题时并不是只有立即关闭系统一种选择,还有许多其它的选择。主动监测一系列系统参数能够提供足够的信息来构建对硬件和数据最安全的解决方案,从而最终节约大量成本。

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/dianzi/2422067.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-08-02
下一篇 2022-08-02

发表评论

登录后才能评论

评论列表(0条)

保存