分析结果的可靠性要求分析数据

分析结果的可靠性要求分析数据,第1张

SSD数据可靠性问题分析

几个月前,我阅读并整理了脸书和谷歌近年来发表的几篇关于SSD故障分析的文章。谷歌在2020年的FAST大会上发布了《生产中的闪存可靠性:预期和意外》。本文基于六年来收集的数据,对固态硬盘的可靠性进行了科学的研究,比较了固态硬盘和硬盘的可靠性差异。2015年,脸书发布了“现场闪存故障大规模研究”,根据大数据的方法对闪存故障进行了长期分析。事实上,这种科学研究会提出一些关于SSD在企业中应用的难题:SSD能否安全地部署在特定的数据管理中心?为了更好地在数据管理中心大规模部署固态硬盘,我们还必须做些什么?

在谷歌的科学研究中,对UE(不可纠正的错误)进行了深度的科学分析。大家都知道NANDFlash不靠谱,经常出错。使用时很可能会遇到误码。这是正常的。尤其是15nm工艺及其TLC/QLC营销推广,使得NANDFlash的误码问题越来越严重。SSD的一个关键工作职责就是纠正这个位错误,让不可靠的NANDFlash变成可靠的SSD存储盘。

然而,虽然SSD拥有强大的BCH或LDPC编解码模块,以及其RAIN和其他杂项数据维护系统,但像UE这样的错误是难以避免的。Flash产生故障,可根据ECC、RAIN或固件处理。这种错误称为可纠正错误,属于透明错误的范围,不容易对 *** 作造成危害。SSD内部系统无法处理的错误,那么这种错误可能会对业务流程造成危害,这种错误称为UE,属于非透明错误的范围。Google根据4年的数据显示,20%(20~63%)的固态硬盘遇到UE,这类UE主要表现为坏扇区;在业务流程层。与硬盘相比,3.5%的传统硬盘会在32个月内遇到坏扇区。这意味着SSD在数据部分破坏方面将远远高于HDD,大致如下:


除了观察部分破坏的故障,客户还会继续更关心SSD的整盘破坏。根据谷歌的科研数据,四年内,SSD磁盘的替代率为4~10%,而传统机械硬盘的年替代率为2~9%。从这个角度来看,SSD的故障更换率远低于HDD。这主要表现在,SSD一旦发布,其替代率低于硬盘,可以大大简化运维服务。



根据错误的实际类型,从图中可以看出,就非透明错误而言,绝大多数错误是不可纠正的错误,即在实际 *** 作读取时发现坏扇区,导致数据丢失。而且在大规模部署的情况下,这种失误造成的危害还是很严重的。

除了分析SSD磁盘对外开放的主要部分及其整体故障,Google还分析了SSD数据可靠性的因素。危及SSD数据可靠性的因素如下:

1、固态硬盘磨损

2.固态硬盘的技术类型(MLC、TLC)

3.制造和加工技术

4.使用时间(年龄)

5.温度

有趣的是,SSD的数据可靠性与使用时间有关,而不仅仅是使用期限。如果一个板块长期存放没有应用,那么这个板块的数据失败率比新开盘的楼高。如下图所示:



对于一个新升级的老盘,经过长期存储,SSD内部NANDFlash导致的故障保持十位数上升。也说明SSD的数据可靠性与时间有关。此外,不同的制造工艺也会对SSD的数据可靠性造成关键伤害。下图比较了不同NAND类型及其制造工艺的数据可靠性:



综合来看,从Google的统计分析数据可以发现,SSD的故障实体模型相对于HDD发生了关键性的变化。SSD比HDD好;在整个磁盘故障级别;然而,在部分故障水平,固态硬盘的重大故障率高于硬盘。因此,在大规模部署SSD的情况下,顶层系统软件仍然必须考虑SSD存储的容错纠错机制,避免SSD中的数据丢失。因为SSD故障实体模型的转变,顶级手机软件的容错纠错机制也必须进行调整,纳入很多SSD故障的问题。


欢迎分享,转载请注明来源:内存溢出

原文地址: https://outofmemory.cn/zz/778370.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-05-03
下一篇 2022-05-03

发表评论

登录后才能评论

评论列表(0条)

保存