heartbeat failed是什么意思_服务器

heartbeat failed
心跳失败
双语例句
1
It consists of a messaging layer, a set of resource agents ( whichprovide standardized interfaces for cluster resources), a heartbeatdaemon ( to permit registration and notification of new or failedresources), and a cluster resource manager ( to provide serviceorchestration)
它包括一个消息收发层，一组资源代理（它为群集资源提供标准化的接口），一个心跳守护程序（允许新的或故障资源进行注册和发出通知），以及一个群集资源管理器（用于提供服务编排）。
2
If a server fails to respond to a heartbeat exchange, the survivingservers initiate failover processes, including ownership arbitration forresources and applications owned by the failed server
如果服务器未能对检测信号交换做出响应，则幸存的服务器将启动故障转移过程，这包括对失败服务器所拥有的资源和应用程序进行所有权仲裁

解决脑裂问题，通常采用隔离(Fencing)机制，包括三个方面：
共享存储fencing：确保只有一个Master往共享存储中写数据。
客户端fencing：确保只有一个Master可以响应客户端的请求。
Slave fencing：确保只有一个Master可以向Slave下发命令。
Hadoop公共库中对外提供了两种fenching实现，分别是sshfence和shellfence（缺省实现），其中sshfence是指通过ssh登陆目标Master节点上，使用命令fuser将进程杀死（通过tcp端口号定位进程pid，该方法比jps命令更准确），shellfence是指执行一个用户事先定义的shell命令（脚本）完成隔离。
切换对外透明：为了保证整个切换是对外透明的，Hadoop应保证所有客户端和Slave能自动重定向到新的active master上，这通常是通过若干次尝试连接旧master不成功后，再重新尝试链接新master完成的，整个过程有一定延迟。在新版本的Hadoop RPC中，用户可自行设置RPC客户端尝试机制、尝试次数和尝试超时时间等参数。
在“双机热备”高可用（HA）系统中，当联系2个节点的“心跳线”断开时，本来为一整体、动作协调的HA系统，就分裂成为2个独立的个体。由于相互失去了联系，都以为是对方出了故障，2个节点上的HA软件像“裂脑人”一样，“本能”地争抢“共享资源”、争起“应用服务”，就会发生严重后果：或者共享资源被瓜分、2边“服务”都起不来了；或者2边“服务”都起来了，但同时读写“共享存储”，导致数据损坏（常见如数据库轮询着的联机日志出错）。
运行于备用主机上的Heartbeat可以通过以太网连接检测主服务器的运行状态，一旦其无法检测到主服务器的“心跳”则自动接管主服务器的资源。通常情况下，主、备服务器间的心跳连接是一个独立的物理连接，这个连接可以是串行线缆、一个由“交叉线”实现的以太网连接。Heartbeat甚至可同时通过多个物理连接检测主服务器的工作状态，而其只要能通过其中一个连接收到主服务器处于活动状态的信息，就会认为主服务器处于正常状态。从实践经验的角度来说，建议为Heartbeat配置多条独立的物理连接，以避免Heartbeat通信线路本身存在单点故障。
1、串行电缆：被认为是比以太网连接安全性稍好些的连接方式，因为hacker无法通过串行连接运行诸如telnet、ssh或rsh类的程序，从而可以降低其通过已劫持的服务器再次侵入备份服务器的几率。但串行线缆受限于可用长度，因此主、备服务器的距离必须非常短。
2、以太网连接：使用此方式可以消除串行线缆的在长度方面限制，并且可以通过此连接在主备服务器间同步文件系统，从而减少了从正常通信连接带宽的占用。
基于冗余的角度考虑，应该在主、备服务器使用两个物理连接传输heartbeat的控制信息；这样可以避免在一个网络或线缆故障时导致两个节点同时认为自已是唯一处于活动状态的服务器从而出现争用资源的情况，这种争用资源的场景即是所谓的“脑裂”（split-brain）或“partitioned cluster”。在两个节点共享同一个物理设备资源的情况下，脑裂会产生相当可怕的后果。
为了避免出现脑裂，可采用下面的预防措施：
添加冗余的心跳线，例如双线条线。尽量减少“裂脑”发生机会。
启用磁盘锁。正在服务一方锁住共享磁盘，“裂脑”发生时，让对方完全“抢不走”共享磁盘资源。但使用锁磁盘也会有一个不小的问题，如果占用共享盘的一方不主动“解锁”，另一方就永远得不到共享磁盘。现实中假如服务节点突然死机或崩溃，就不可能执行解锁命令。后备节点也就接管不了共享资源和应用服务。于是有人在HA中设计了“智能”锁。即，正在服务的一方只在发现心跳线全部断开（察觉不到对端）时才启用磁盘锁。平时就不上锁了。
设置仲裁机制。例如设置参考IP（如网关IP），当心跳线完全断开时，2个节点都各自ping一下参考IP，不通则表明断点就出在本端，不仅“心跳”、还兼对外“服务”的本端网络链路断了，即使启动（或继续）应用服务也没有用了，那就主动放弃竞争，让能够ping通参考IP的一端去起服务。更保险一些，ping不通参考IP的一方干脆就自我重启，以彻底释放有可能还占用着的那些共享资源。

主要逻辑：
使用netty实现长连接，主要靠心跳来维持服务器端及客户端连接。

主要的实现逻辑如下：

服务器端：（HeartBeatRespHandler）

1，服务器在网络空闲 *** 作一定时间后，服务端失败心跳计数器加1。

2，如果收到客户端的ping心跳包，则清零失败心跳计数器，如果连续n次未收到客户端的ping心跳包，则关闭链路，释放资源，等待客户端重连。

客户端：（HeartBeatReqHandler）

1，客户端网络空闲在一定时间内没有进行写 *** 作时，则发送一个ping心跳包。

2，如果服务器端未在发送下一个心跳包之前回复pong心跳应答包，则失败心跳计数器加1。

3，如果客户端连续发送n（此处根据具体业务进行定义）次ping心跳包，服务器端均未回复pong心跳应答包，则客户端断开连接，间隔一定时间进行重连 *** 作，直至连接服务器成功。

RHCS所使用的fence设备是在服务器不响应的情况下使用的，如果只是你的应用（比如数据库）瘫痪了，这个是不产生切换的，RHCS是 *** 作系统层面的集群。如果没有fence设备，是没有办法安装RHCS的，因为安装过程中要指定fence设备的。

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/zz/13478577.html

heartbeat failed是什么意思

发表评论

评论列表（0条）