重启节点命令_服务器

rac节点频繁重启的问题分析

自然环境:想到R680的两个物理机构会搭建一套2节点RAC，数据库查询版本号是Oracle11.2.0.4。

1.常见故障和问题:
节点2频繁重启，一月到二月重启数次，甚至一天重启三次，令人头疼。

二、问题分析及处理:

1.数据同步问题
第一个怀疑是时间不一样。
观察到该网络服务器的ntp数据同步偏移量过大(下图中的偏移量为11376)

并且数据库查询的CTSS日志中出现异常返回值。

这里发现一个难点问题，就是时间源偏向旧的时间源网络服务器，而网络服务器位于新的大数据中心，所以改为新的大数据中心的时间源网络服务器并更改BIOS数字钟，使系统软件数字钟和硬件配置时钟时间一致。至此，数据同步问题被清除。

2.数据库查询日志反映的问题

根据预警日志，发现有节点驱动。

再次检查CSSD日志并找到

信息显示的是硬盘的心跳，而是网络的心跳。

这时候区分一下:节点2总是频繁重启，专网出现问题的概率会很大，所以从网上查一下。2节点每次重启后，rac集群都可以成功添加，不存在数据同步的问题。

填充:

如果集群中的某个节点一直丢失硬盘心跳或互联网心跳，那么它将被从集群中驱动出来，也就是说，该节点将重新启动。组管理方式导致的节点重启称为节点killescalation(只有11gR1以上的版本号可用)。重启必须在特定时间内进行(通常为3秒)。

Internetheartbeat:ocssd.bin进程根据私网每秒向集群中的每个节点推送Internetheartbeat信息内容，以确定每个节点是否正常。如果某个节点连续丢失Internet心跳，达到阈值misscount(默认设置为30秒，如果有其他集群管理系统软件，则为600秒)，集群将根据resolutionpanel进行网络投票，这样丢失Internet心跳的节点将被主节点赶出集群，即该节点将重新启动。如果集群只包含两个节点，就会出现裂脑。这样一来，节点号小的节点会存活下来，即使节点号小的节点出现了网络问题。

硬盘心跳:ocssd.bin进程是每秒向所有投票文件申请注册本节点的信息内容。这整个过程叫做硬盘心跳。如果一个节点不断丢失硬盘，心跳达到阈值disktimeou(通常为200秒)，该节点会自动关机，以保证集群的一致性。另外，CRS只规定可以使用[N/2]块决议板，其中N为决议总数，一般为总数。

3.检查互联网的问题。

此RAC心跳网络由两个网络端口ETH13和ETH15组成，这两个端口与两个网络交换机的两个端口号相匹配。

使用call-up来依次丢弃网络交换机的两个端口号和网络端口并没有解决困难。最后选择了换线、独立挂线等解决方案。发现线路光损有点大，但重启问题最终没有解决。

4.是硬件配置问题吗？

这个问题深陷两难境地。如果换个思路，互联网和数据库查询很可能不是问题。那么，硬件配置真的能保护你神智清醒，逃离吗？

答案是否定的，那就是硬件配置的问题。

节点重启，数据库查询的日志终止，那么会不会是CPU和运行内存的问题？检查MCELOG日志以找出答案。

MCELOG一个不容忽视的日志

Mcelog是x86Linux系统软件中使用的专用工具，用于检查不正确的硬件配置，尤其是不正确的运行内存和CPU。它的日志是MCELOG。

一般来说，运行内存大的网络服务器容易出现运行内存的问题。现在的内存控制器都集成在cpu中，所以运行内存的错误检查和CPU的问题都有可能导致网络服务器重启。

好了，让我们来看看MCELOG日志中报告的错误。

甲骨文官网对MCELOG恶性事件的声明；

至此，问题浮出水面。联系硬件配置厂家，刷电脑主板夹具的程序流程，最后处理掉更换一个运行内存后的难题。

三。疑难问题的总结与思考:

1.监督的作用不容忽视。服务器配置监控管理平台没有发现运行内存硬件配置的问题，需要联系厂商再次提高服务器配置监管的粗粒度和灵敏度。

2.通过从日志、互联网、数据库查询、系统软件、硬件配置等方面进行专项检查。，问题终将被发现。

3.解决困难靠的是细心和细心。如果你更进一步，问题最终会得到解决。

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/zz/778855.html

重启节点命令

发表评论

评论列表（0条）