自然环境:想到R680的两个物理机构会搭建一套2节点RAC,数据库查询版本号是Oracle11.2.0.4。
1.常见故障和问题:
节点2频繁重启,一月到二月重启数次,甚至一天重启三次,令人头疼。
二、问题分析及处理:
1.数据同步问题
第一个怀疑是时间不一样。
观察到该网络服务器的ntp数据同步偏移量过大(下图中的偏移量为11376)
并且数据库查询的CTSS日志中出现异常返回值。
这里发现一个难点问题,就是时间源偏向旧的时间源网络服务器,而网络服务器位于新的大数据中心,所以改为新的大数据中心的时间源网络服务器并更改BIOS数字钟,使系统软件数字钟和硬件配置时钟时间一致。至此,数据同步问题被清除。
2.数据库查询日志反映的问题
根据预警日志,发现有节点驱动。
再次检查CSSD日志并找到
信息显示的是硬盘的心跳,而是网络的心跳。
这时候区分一下:节点2总是频繁重启,专网出现问题的概率会很大,所以从网上查一下。2节点每次重启后,rac集群都可以成功添加,不存在数据同步的问题。
填充:
如果集群中的某个节点一直丢失硬盘心跳或互联网心跳,那么它将被从集群中驱动出来,也就是说,该节点将重新启动。组管理方式导致的节点重启称为节点killescalation(只有11gR1以上的版本号可用)。重启必须在特定时间内进行(通常为3秒)。
Internetheartbeat:ocssd.bin进程根据私网每秒向集群中的每个节点推送Internetheartbeat信息内容,以确定每个节点是否正常。如果某个节点连续丢失Internet心跳,达到阈值misscount(默认设置为30秒,如果有其他集群管理系统软件,则为600秒),集群将根据resolutionpanel进行网络投票,这样丢失Internet心跳的节点将被主节点赶出集群,即该节点将重新启动。如果集群只包含两个节点,就会出现裂脑。这样一来,节点号小的节点会存活下来,即使节点号小的节点出现了网络问题。
硬盘心跳:ocssd.bin进程是每秒向所有投票文件申请注册本节点的信息内容。这整个过程叫做硬盘心跳。如果一个节点不断丢失硬盘,心跳达到阈值disktimeou(通常为200秒),该节点会自动关机,以保证集群的一致性。另外,CRS只规定可以使用[N/2]块决议板,其中N为决议总数,一般为总数。
3.检查互联网的问题。
此RAC心跳网络由两个网络端口ETH13和ETH15组成,这两个端口与两个网络交换机的两个端口号相匹配。
使用call-up来依次丢弃网络交换机的两个端口号和网络端口并没有解决困难。最后选择了换线、独立挂线等解决方案。发现线路光损有点大,但重启问题最终没有解决。
4.是硬件配置问题吗?
这个问题深陷两难境地。如果换个思路,互联网和数据库查询很可能不是问题。那么,硬件配置真的能保护你神智清醒,逃离吗?
答案是否定的,那就是硬件配置的问题。
节点重启,数据库查询的日志终止,那么会不会是CPU和运行内存的问题?检查MCELOG日志以找出答案。
MCELOG一个不容忽视的日志
Mcelog是x86Linux系统软件中使用的专用工具,用于检查不正确的硬件配置,尤其是不正确的运行内存和CPU。它的日志是MCELOG。
一般来说,运行内存大的网络服务器容易出现运行内存的问题。现在的内存控制器都集成在cpu中,所以运行内存的错误检查和CPU的问题都有可能导致网络服务器重启。
好了,让我们来看看MCELOG日志中报告的错误。
甲骨文官网对MCELOG恶性事件的声明;
至此,问题浮出水面。联系硬件配置厂家,刷电脑主板夹具的程序流程,最后处理掉更换一个运行内存后的难题。
三。疑难问题的总结与思考:
1.监督的作用不容忽视。服务器配置监控管理平台没有发现运行内存硬件配置的问题,需要联系厂商再次提高服务器配置监管的粗粒度和灵敏度。
2.通过从日志、互联网、数据库查询、系统软件、硬件配置等方面进行专项检查。,问题终将被发现。
3.解决困难靠的是细心和细心。如果你更进一步,问题最终会得到解决。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)