3850x6每个cpu里面插一根内存会报错，为什么把内存模式改成independent模式报错就消除了。_服务器

Independent Channel Mode 独立通道模式
LockStep Channel Mode和精确同步模式
独立通道模式是指每个通道（Channel）独立运行，一个内存通道对应CPU的一个高速缓存行（Cache-line）。而LockStep技术使用相同的、冗余的硬件组件在同一时间内处理相同的指令，这就能解释为什么LockStep报错了，一根怎么冗余？

上世纪80年代，第一代容错技术就开始进入商用领域。美国Stratus（容错公司）在Stratus独特的硬件级容错技术及VOS专有 *** 作系统环境下,采用了Motorola M68000处理器。
1993年，英特尔 I860处理器在Stratus的硬件级容错体系结构中成功应用，在软件环境方面，还能满足业界对开放性要求的Unix *** 作系统FTX，即AT&T UNIX SVR4。
1996年，容错技术得到HP的支持，共同推出Stratus Continuum系列，将Stratus容错结构结合HP PA－RISC对称多处理技术。
进入21世纪以来，制造、中小企业、能源、交通等领域对服务器，特别是中低端IA服务器的需求激增，过去仅仅可以应用在RISC平台、HP－UX环境下的容错产品也面临着新的挑战。另一方面，企业越来越依赖信息系统来完成关键业务的应用，同时他们不可能配备更多的专业人员来进行专职维护。双机热备、集群服务器遇到难题。
如今：NEC通过与美国容错公司多年的合作，于2001年推出了业界第一台基于IA架构、支持Microsoft Win-dows Server 2000标准 *** 作系统环境的容错服务器。NEC的Express5800/ft系列在Windows及Linux平台上的可靠性达到了99999%，这种实时保护技术来源于STRATUS连续处理技术（Fundamentals of Continuous Pro-cessing Design），它包括： FAILSAFE 软件和LOCKSTEP技术运行一样，可防止很多软件错误和储运耗损。该软件在Windows 2000/2003环境下采用热插拔、内存镜像、负载均衡、多点终止失效、多通道I/O等方式，大大增强了系统连续运行的稳定性。
FAILSAFE可以管理和诊断特征捕获，分析和通报服务器的软件问题，从而允许个人在软件发生错误之前去纠正错误。FAILSAFE软件的下列功能增强了NEC Express5800/ft系统在Windows环境中的可靠性：保护短暂的硬件故障；通过增强的驱动程序预防软件失效；软件问题的捕获、分析及修正；内存数据的连续性维持；丰富的纠错功能可以解决各种不同的错误。为了避免物理撞击等意外故障，安全故障软件还提供了自动重启功能，能够将宕机前CPU与内存数据即时保存下来，最大限度地避免数据的意外丢失。当然，假如容错服务器的硬件发生永久性故障，尽管系统能够正常运行，也必须及时更换硬件才能维持容错的冗余架构。容错服务器都配备了简易直观的图形界面来管理监测工具，（如NECExpress5800/ft提供了ESMPRO 管理软件），能够对服务器中硬件运行及故障状态进行适时监控。

首先
帧同步
简单来说，就是相同的状态+相同的指令+ 按帧顺序执行=相同的结果。
状态：所有客户端确保逻辑一致，接收一样的随机种子（randomseed），一样的房间信息；
指令：服务器只负责收集接收每个客户端 *** 作指令（cmd），转发指令，服务器以恒定帧率（30帧1秒）派发指令，没有指令或指令没有变化也需要派发；
执行：真正游戏逻辑由各个客户端单独计算，客户端需要收到服务器派发的指令才能推进逻辑，没有收到指令时不能推进逻辑（LockStep）
顺序执行
帧同步会必定按到从第一帧开始一帧一帧的执行，才能保证运行结果一样，跳帧会导致逻辑不一样，如果玩家网络不好，则会在当前帧等待至下一帧的接受，如果丢包超时，则会再次发出需要帧的请求。
追帧
什么是追帧：当前玩家播放到帧比服务器的帧落后时，服务器下发多个帧，玩家便要开始快进到服务器当前帧
为什么要追帧：如果网络波动，服务器会有最晚的接受帧时间，
做法：超过则下次发送多个帧，然后快进播放（多次DoAction），快进期间，不播放特效音效等不影响运行结果的逻辑
重连
做法：接受从0开始所有帧重新快速播放到当前帧，如果帧列表count大于规定速度则按照最大速度播放，否则按照剩余的count播放相应次数的帧。
优点
第一，它的开发效率比较高。如果你开发思路的整体框架是验证可行的，如果你把它的缺点解决了，那么你的开发思路完全就跟写单机一样，你只需要遵从这样的思路，尽量保证性能，程序该怎么写就怎么写，服务端逻辑简单，只需要负责转发指令，压力也小。
资料来源于网络若侵权联系删除

容错软件的定义：
1。对自身的错误的作用具有屏蔽作用
2。可以从错误状态恢复到正常状态
3。发生错误时，能完成预期的功能
4。在一定程度上具有容错能力
实现容错技术主要是冗余：
1。结构冗余
2。信息冗余
3。时间冗余
4。冗余附加技术
世纪80年代，第一代容错技术就开始进入商用领域。美国Stratus（容错公司）在Stratus独特的硬件级容错技术及VOS专有 *** 作系统环境下，采用了Motorola M68000处理器。
1993年，Intel I860处理器在Stratus的硬件级容错体系结构中成功应用，在软件环境方面，还能满足业界对开放性要求的Unix *** 作系统FTX，即AT&T UNIX SVR4。
1996年，容错技术得到HP的支持，共同推出Stratus Continuum系列，将Stratus容错结构结合HP PA－RISC对称多处理技术。
进入21世纪以来，制造、中小企业、能源、交通等领域对服务器，特别是中低端IA服务器的需求激增，过去仅仅可以应用在RISC平台、HP－UX环境下的容错产品也面临着新的挑战。另一方面，企业越来越依赖信息系统来完成关键业务的应用，同时他们不可能配备更多的专业人员来进行专职维护。双机热备、集群服务器遇到难题。
如今：NEC通过与美国容错公司多年的合作，于2001年推出了业界第一台基于IA架构、支持Microsoft Win-dows Server 2000标准 *** 作系统环境的容错服务器。NEC的Express5800/ft系列在Windows及Linux平台上的可靠性达到了99999%，这种实时保护技术来源于STRATUS连续处理技术（Fundamentals of Continuous Pro-cessing Design），它包括：
1、LOCKSTEP 技术
LOCKSTEP技术使用相同的、冗余的硬件组件在同一时间内处理相同的指令。LOCKSTEP技术可以保持多个CPU、内存精确的同步，在正确的相同时钟周期内执行相同的指令。该技术保证能够发现任何错误，即使短暂的错误，系统也能在不间断处理和不损失数据的情况下恢复正常运行。
2、安全故障（FAILSAFE）软件
FAILSAFE 软件和LOCKSTEP技术运行一样，可防止很多软件错误和储运耗损。该软件在Windows 2000/2003环境下采用热插拔、内存镜像、负载均衡、多点终止失效、多通道I/O等方式，大大增强了系统连续运行的稳定性。
FAILSAFE可以管理和诊断特征捕获，分析和通报服务器的软件问题，从而允许个人在软件发生错误之前去纠正错误。FAILSAFE软件的下列功能增强了NEC Express5800/ft系统在Windows环境中的可靠性：保护短暂的硬件故障；通过增强的驱动程序预防软件失效；软件问题的捕获、分析及修正；内存数据的连续性维持；丰富的纠错功能可以解决各种不同的错误。为了避免物理撞击等意外故障，安全故障软件还提供了自动重启功能，能够将宕机前CPU与内存数据即时保存下来，最大限度地避免数据的意外丢失。
3、激活服务（ACTIVE SERVICE ）
当然，假如容错服务器的硬件发生永久性故障，尽管系统能够正常运行，也必须及时更换硬件才能维持容错的冗余架构。容错服务器都配备了简易直观的图形界面来管理监测工具，（如NECExpress5800/ft提供了ESMPRO 管理软件），能够对服务器中硬件运行及故障状态进行适时监控。
未来
容错技术的应用已经开始从过去的证券、电信等领域进入基础行业，如制造、能源、物流、交通及有着"7×24"不间断运营需求的中小商业团体和政府。NEC为迎合互联网的高速增长，为容错服务器引入了最新的稳定、安全、可升级、功能强大的Linux版本。
容错的未来将会向更高的可用性、更卓越的可维护性发展。调查显示，越来越多的用户开始注重TCO（总拥有成本）而不是初期购买价格，更多的企业决定逐步放弃采用双机热备的方式来维护复杂的集群服务器，转而将目光瞄向具有容错技术的平台或容错服务器平台。
在中国市场，NEC 公司与神州数码的合作在一定程度上弥补了容错服务器在中国市场服务拓展领域的短板。这将引发国内各领域的容错技术与应用的井喷式发展。

关键业务服务器对可靠性要求非常严格，调研机构曾调查过不同行业，关键业务中断服务带来的金钱损失：服务器宕机1分钟，平均会使运输业损失15万美元，银行业损失27万美元，通信业损失35万美元，制造业损失42万美元，证券业损失45万美元。而根据ITIC最新2018年底统计，1小时停机损失：

前些年关键业务服务器的金标准是要做到5个9，现在已经要求6个9，甚至7个9。他们是什么意思呢？

X个9，表示在1年时间的使用过程中，服务器可以正常使用时间与总时间（1年）的比值。

5个9：(1-99999%)3652460=526分钟，表示1年非计划停机时间不超过526分钟。

6个9：(1-999999%)365246060=315秒，表示1年非计划停机时间不超过30秒。

7个9：(1-9999999%)365246060=315秒，表示1年非计划停机时间不超过3秒。

ITIC统计2018年80%的企业最低要求4个9，可靠性要求增长非常迅速：

服务器能够做到这么短的非计划停机时间，除了在 *** 作系统上要求严格外，硬件上的保证是重中之重。服务器的RAS(Reliability， Availability，Serviceability 高可靠性、高可用性、高服务性)特性（feature）曾经是大型机的骄傲，也是它们高高在上身价的基础，但随着X86在RAS功能上的补足，服务器市场已经几乎被X86服务器占据。关键业务服务器由于历史和维护原因，还有部分市场份额不在X86的掌控之中，但非X86高可靠性的神话已经破灭。根据ITIC统计：

X86服务器不但占据绝大部分，而且可靠性也仅仅比Power 服务器低一点点。

那么这些RAS功能都是些什么呢？绝对不是焚香祷告哦

而是实打实的硬功夫！RAS的根本在于提供硬件冗余来避免错误；出错后及时发现、纠正和避免错误扩散；替换掉出错的设备等等。下面我们来分别了解一下。

对计算机比较了解的同学都知道磁盘的RAID模式，RAID提供了数据冗余来保证数据安全。当然RAID是服务器上的必备要求，但你知道吗，内存也有同样的模式，那就是内存镜像（Memory Mirror）。内存镜像将4个通道的内存成对存储相同的数据，类似磁盘的RAID 1，内存的数据在硬件上就被保存了两份，当一份损坏时还有备份，而更妙的是这些是对软件透明的。

这个冗余度和RAID1一样是很大的，一半的资源在大部分情况下闲置了，在提高可靠性的同时浪费也十分严重，有没有稍微省钱点的做法呢？当然有，那就是内存备用(Memory Sparing)，简单来说就是保留了部分内存，当出错再把这些内存拿来顶上。它的颗粒度可以到DIMM甚至以Rank为单位。

大家知道1位奇偶校验码可以发现1位的错误，但不能纠正，对于2位以上连发现都发现不了。ECC好一些，但对于很多位错误就无能为力了。SDDC （Single Device Data Correction,单设备数据校正）可以纠正X4的单设备错误：

SDDC+1不但可以纠正X4的内存错误，还可以把出错的颗粒替换掉，让它下次不再出错：

DDDC（Double Device Data Correction ）可以和Lockstep一起，将两个DIMM拼拼，纠正两个X4颗粒的错误：

DDDC+1和ADDDC(Adaptive Double Device Data Correction)这里就不再介绍，有兴趣的可以自行Google。

这些都是内存访问的时候发现错误了如何处理，但是还有些错误可能发生在没有访问的区域，这些区域错误不加处理，积少成多，可能超过DDDC的纠错能力。这就需要Patrol Memory Scrubbing的帮助了。它会像高速巡警一样，借助一个特殊的引擎，帮助定期扫描内存的可能出现的错误。Demand Scrubbing会把发现错误的数据，纠正后写回去，避免错误积累。

我曾经有过两篇文章介绍出错的问题：

计算机硬件出错了会发生什么？

WHEA原理和架构

大家感兴趣可以翻翻前面的文章。

作为服务器必备的功能，WHEA会把错误向 *** 作系统报告， *** 作系统可以选择做出相应的动作。BIOS还可以设置poison位来标定出错的范围。

硬件发生了错误，即使已经通过各种手段（SDDC等）得到纠正，但隐患已经埋下。硬件一旦发生错误，可能会越来越严重，慢慢变得不能够纠正而变成严重错误。为了避免发生这种情况，需要把出错的设备移除和替换。

那么 *** 作系统报告给管理员错误后，该怎么办呢？按照一般的想法就是关机换设备吧。但这种 *** 作是严重影响x个9的可用性数据的。必须在 *** 作系统还在持续提供服务的情况下更换设备、内存甚至CPU！

也许你听说过PCIe设备的热插拔，但内存和CPU的热插拔就比较高冷了。CPU和内存热插拔和PCIe类似，有个attention开关。在按下后，BIOS、 *** 作系统和硬件会合作把设备周边电路隔离、内核对象移除和变更，在完成后会有状态指示灯显示准备工作结束，可以动手移除了。CPU和内存插入和这个相反，但都要BIOS、 *** 作系统和硬件支持，十分复杂，但整个 *** 作下来也十分炫酷。

6个9甚至7个9是个系统工程，需要整体上考虑。除了这些RAS功能之外，服务器硬件如磁盘驱动器等等也与民用不同，十分昂贵。

这些功能整体推高了服务器的价格，Google、FB、亚马逊和阿里等等大型云服务公司决定另辟蹊径，从 *** 作系统级别的软件冗余来解决系统X个9的可靠性问题，这样一台服务器出错，直接整台offline，而不是CPU或者内存的更换。于此同时另外2到3台服务器还在持续提供服务，服务不会中断。

但是大型关键部门如银行电信等，还在借助传统的RAS来保证系统的可靠性。

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/zz/10658989.html

3850x6每个cpu里面插一根内存会报错，为什么把内存模式改成independent模式报错就消除了。

发表评论

评论列表（0条）