关于硬件故障管理
现代数据中心管理灵活且不断发展。它的任务是推动业务目标并保证任务关键型负载可用,包括各种硬件和软件解决方案,这些方案可能过于复杂,难以有效管理。为了控制风险和满足苛刻的服务级别承诺,各种硬件和软件特性应运而生,从而可以帮助系统管理员监视系统运行状况、及早发现问题。
这些特性被称作故障管理,由多种解决方案和标准构成,旨在提供能够监视、管理、识别和解决那些困扰系统管理员的问题的工具。与数据中心最佳实践(如冗余和高可用性)相结合时,硬件故障管理特性提供强大的工具,可以提升效率、提高认识、降低风险并支持数据中心系统所担负的苛刻目标。
使用 IPMI 和 ipmitool
IPMI 是一个规范,最早于 1998 年由 Intel、Dell、HP 和 NEC 共同制定。其主要目的是提供一个访问系统信息的通用命令接口。它原本是设计成与管理软件无关的;但后来却常与系统特性结合使用。
IPMI 独立于 *** 作系统运行,这意味着您可以“带外”方式或是在 *** 作系统启动之前访问系统。这在 *** 作系统或系统出现故障的情况下非常有用,因为您可以使用它提供的工具在传统系统管理功能不可用时收集关键信息。
IPMI 中有一些预定义的命令和接口可用于读取温度、电压、风扇速度、电源和网络设置。而且 IPMI 规范被设计成可扩展的。因此,厂商可以自定义和创建其他的命令和传感器。例如,Oracle Integrated Lights Out Manager (Oracle ILOM) 符合 IPMI 15 版和 20 版。HP 的 Integrated Lights-Out (iLO) 和 Dell 的 DRAC (Dell Remote Access Controller) 就是集成了 IPMI 或符合 IPMI 的方案。每个解决方案都提供了一组带外支持特性。这正是本规范的设计意图:提供通用的、跨平台的支持,同时让厂商能够定制自己的个性化解决方案的方法。
在 Oracle Linux 中,使用 ipmitool 实用程序管理和配置支持 IPMI 规范的设备。从 24 版开始,IPMI 支持已成为 Linux 内核的一部分。ipmitool 实用程序提供管理现场可更换部件 (FRU)、LAN 配置、传感器读取和远程机箱电源控制的功能。下一节将讨论使用 ipmitool中特性的安装和使用场景。
安装
第一步是在系统中安装 ipmitool。支持 IPMI 规范的系统中含有 IPMI 特性。这些系统都含有一个基板管理控制器 (BMC),它是 IPMI 架构的智能核心。使用 OpenIPMI 和 ipmitool,您可以与 BMC 直接连接并与 IPMI 规范实现的特性交互。
为了访问服务器的 IPMI 特性,本地工作站或管理计算机需要位于能访问具有 BMC 的系统的网络,且必须安装了 OpenIPMI 和 ipmitool工具。要安装这些工具,请转至服务器控制台并键入以下命令:
yum install ipmitoolx86_64 OpenIPMIx86_64
然后,使用以下命令配置 ipmitool 以便在系统上使用并启动服务。启动服务后,它会加载 IPMI 内核并创建一个 /dev/ipmi0 设备。
chkconfig ipmi on
service ipmi start
还可以在其他含有 BMC 的 IPMI 系统上安装 ipmitool 和 OpenIPMI 软件包,这两个软件包提供配置 IPMI 设置的选项,我们在以下示例中将看到。
安装、配置并运行这些工具后,我们就可以与控制和监视系统的特性进行交互。我们来看看下面这些利用 ipmitool 和 Oracle Linux 的 IPMI 用例。
远程系统访问
IPMI 的一个特性是能够通过网络直接与系统相连。这个动作独立于目标系统上安装的任何 *** 作系统,提供了一个非常有用的管理选项。它为您提供了与服务器 IPMI 接口的直接连接,让您可以远程执行 IPMI 命令。实际上,您可以使用该选项编写脚本,从而能够在一台管理计算机上控制无数台服务器。
要启用此特性,必须先完成几个步骤,比如设置口令以及为 BMC 所在服务器的 IPMI 接口添加 IP 地址。需要注意的是,许多服务器都有一个单独的远程管理以太网端口。查看您的硬件文档,了解有关具体服务器远程管理的更多信息。
通过网络访问 IPMI 的第一步是要为 BMC 所在的系统配置有效的 IP 地址。以下示例演示了如何使用 ipmitool 完成这一配置。(注:该示例使用 Oracle Sun Fire X4170 M2 服务器。)要使用 ipmitool 配置 IP 地址,请在服务器控制台使用以下命令:
ipmitool lan set 1 ipaddr 1921681120
ipmitool lan set 1 netmask 2552552550
ipmitool lan set 1 defgw ipaddr 19216811
设置完 IPMI 接口的 IP 地址之后,需要一个方法进行身份验证。在以下示例中,我们将口令改成 root 用户,从而允许使用 PASSW0rd 口令登录。
注意:我们不推荐使用该方法,此处仅用来举例。我们强烈推荐使用安全口令。
首先,我们需要列出用户以获得 ID 号,然后将使用该 ID 号更改口令。
[root@test1 ~]# ipmitool user list 1
ID Name Callin Link Auth IPMI Msg Channel Priv Limit
1 false false true NO ACCESS
2 root false false true ADMINISTRATOR
[root@test1 ~]# ipmitool user set password 2 PASSW0rd
一旦完成这些配置步骤后,您就可以通过向服务器远程发送 chassis status IPMI 请求来测试配置结果。系统将提示您输入所连接帐户的口令。如果一切配置正确无误,机箱状态将显示在本地命令行上。在您的管理系统命令行上,键入清单 1 所示的命令:
[root@mgmt-vm ~]# ipmitool -I lan -H 1921681120 -U root -a chassis status
Password:
System Power : on
Power Overload : false
Power Interlock : inactive
Main Power Fault : true
Power Control Fault : false
Power Restore Policy : always-on
Last Power Event :
Chassis Intrusion : inactive
Front-Panel Lockout : inactive
Drive Fault : false
Cooling/Fan Fault : false
查看CPU信息
cat /proc/cpuinfo
显示当前硬件信息
sudo lshw
获取CPU序列号或者主板序列号
#CPU ID
sudo dmidecode -t 4 | grep ID
#Serial Number
sudo dmidecode | grep Serial
#CPU
sudo dmidecode -t 4
#BIOS
sudo dmidecode -t 0
#主板:
sudo dmidecode -t 2
#OEM:
sudo dmidecode -t 11
显示当前内存大小
free -m |grep "Mem" | awk '{print $2}'
查看硬盘温度
sudo apt-get install hddtemp
sudo hddtemp /dev/sda
简单网络管理协议
SNMP 协议主要由两大部分构成: SNMP管理站和SNMP代理 。
SNMP管理站 是一个中心节点,负责收集维护各个SNMP元素的信息,并对这些信息进行处理,最后反馈给网络管理员;
SNMP代理 是运行在各个被管理的网络节点之上,负责统计该节点的各项信息,并且负责与SNMP管理站交互,接收并执行管理站的命令,上传各种本地的网络信息。
核心功能实现机制
SNMP管理站和SNMP代理之间是松散耦合。他们之间的通信是通过UDP协议完成的。一般情况下,`SNMP管理站通过UDP协议向SNMP代理发送各种命令,当SNMP代理收到命令后,返回SNMP管理站需要的参数。
但是当SNMP代理检测到网络元素异常的时候,也可以主动向SNMP管理站发送消息,通告当前异常状况。
管理员需要向设备获取数据,所以SNMP提供了读 *** 作;管理员需要向设备执行设置 *** 作,所以SNMP提供了写 *** 作;设备需要在重要状况改变的时候,向管理员通报事件的发生,所以SNMP提供了Trap *** 作。
SNMP采用 UDP协议 在管理端和agent之间传输信息。
SNMP采用UDP 161端口接收和发送请求,162端口接收trap,执行SNMP的设备缺省都必须采用这些端口。
SNMP消息全部通过UDP端口161接收,只有Trap信息采用UDP端口162。
IPMI 能够横跨不同的 *** 作系统、固件和硬件平台,可以智能的监视、控制和自动回报大量服务器的运作状况,以降低服务器系统成本
IPMI 是计算机系统的远程“关闭”或“带外”管理的标准接口。它可以独立于 *** 作系统直接从所谓的“带外”管理卡监视硬件状态,还可以完全启动机器。
由于 IPMI 可在不同的属性值下运作,即使服务器本身的运作不正常,或是由于任何原因而无法提供服务, IPMI 仍可正常运作。
但是 Zabbix IPMI 监控效率较低,
详细配置
以上就是关于如何使用 Oracle Linux 中的硬件故障管理全部的内容,包括:如何使用 Oracle Linux 中的硬件故障管理、写出ubuntu linux系统中查看本机cpu和内存信息的命令和用法,以及如何解读这些命令、SNMP,IPMI简介等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)