服务器监控硬盘状态

服务器监控硬盘状态,第1张

服务器来说,硬盘因为其机械结构,是最容易出现故障的设备。但恰恰是这最容易出现故障的设备中,存储着对企业来说最至关重要的IT资源——数据。一旦硬盘出现故障,会给企业带来重大的损失。据统计,为了解决硬盘故障带来的损失,目前全球每年的数据恢复市场价值大约在千亿美元——而这仅仅是是企业损失的一小部分。近年来,为了解决这一问题衍生出了大量的技术如:Raid、双机热备等。但这些技术都是在基于增加磁盘的数量的方式来尝试解决问题,降低了数据丢失的概率,但同时大大增加了运维成本,提高了管理的难度。
为此,蚁巡运维平台尝试引入一种新的方式,通过远程实时监控服务器硬盘的健康状态,达到在不增加硬件成本和管理成本的基础上保障数据安全的做法。通过蚁巡运维平台,可以自动发现安装了SMART标准技术的硬盘并远程监控其磁盘的健康指标。
SMART的全称为“Self-Monitoring Analysis and Reporting Technology”,即“自我监测、分析及报告技术”。支持SMART技术的硬盘可以通过硬盘上的监测指令和主机上的监测软件对磁头、盘片、马达、电路的运行情况、历史记录及预设的安全值进行分析、比较。当出现安全值范围以外的情况时,就会自动向用户发出警告。几乎所有主流的硬盘,包括固态硬盘都支持这一技术。但该技术只适用于单机环境,且必须手工获取数据,使用该技术防止硬盘故障的管理成本很高。而在蚁巡中,可以批量的、远程的、实时的监控使用了该技术的硬盘,大大降低了管理成本。
同时,通过蚁巡还可以获得硬盘的使用时间、使用次数等基本指标数据。可以有效的评估硬盘的使用情况,从而进一步评估设备的使用率、寿命等信息。
据统计,通过这项技术,可以提前发现超过60%的硬盘故障,给企业带来的价值无可估量。

常见服务器硬件故障排查判断:
服务器常见故障的诊断与解决:服务器故障排除第一部分 服务器故障排除的基本原则性问题服务器故障排除一、服务器开机黑屏故障排查1检查供电环境,零-火;零-地电压?2检查电源指示灯,如果亮,正常吗?3按下电源开关时,键盘上指示灯亮吗?风扇全部转动吗?4是否更换过显示器,更换另一台显示器。5去掉增加内存6去掉增加的CPU7去掉增加的第三方I/O卡8检查内存和CPU插的是否牢靠9 Clear CMOS10更换主要备件,如系统板,内存和CPU服务器故障排除二、服务器故障排除的基本原则1尽量恢复系统缺省配置a:硬件配置:去除第三方厂商备件和非标配备件;b:资源配置:清除CMOS,恢复资源初始配置;c: BIOS,F/W,驱动程序:升级最新的BIOS,F/W和相关驱动程序;d: TPL:扩展的第三方的I/O卡属于该机型的硬件兼容列表(TPL)吗?2从基本到复杂a:系统上从个体到网络:首先将存在故障的服务器独立运行,待测试正常后再接入网络运行,观察故障现象变化并处理。b:硬件上从最小系统到现实系统:指从可以运行的硬件开始逐步到现实系统为止。c:软件上从基本系统到现实系统:指从基本 *** 作系统开始逐步到现实系统为止。3交换对比a:在最大可能相同的条件下,交换 *** 作简单效果明显的部件;b:交换NOS载体,既交换软件环境;c:交换硬件,既交换硬件环境;d:交换整机,既交换整体环境;服务器故障排除三、服务器故障排除需要收集哪些信息?服务器信息:1机器型号2机器序列号(S/N:如:NC00075534)3Bios版本4是否增加其它设备,如网卡,SCSI卡,内存,CPU5硬盘如何配置,是否做阵列,阵列级别6安装什么 *** 作系统及版本(Windows Server, Netware, Sco, others)


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/zz/13246347.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-06-26
下一篇 2023-06-26

发表评论

登录后才能评论

评论列表(0条)

保存