某公司有一套系统软件,两套Windows2003系统软件,使用内置的集群管理器完成双机备份。正常情况下,分布式数据库业务系统安装在网络服务器10.1.1上,数据库查询服务安装在网络服务器10.1.2上。只有当其中一个网络服务器出现常见故障时,才会将资源转移到另一个服务器。
10.1.1.2
一天晚上,我收到一条短信报警。系统出错,无法打开。登录系统10.1.1.1查询集群管理器,发现网络服务器10.1.1.2不在集群内。
1)远程登录系统10.1.1.1,打开集群管理器,找到“S-EIP-数据”数据库查询服务器节点的常见故障,显示“鲜红色十字”信息。主题资源中的“EAIEIP”、“OracleMSCS服务”和“OracleOraDB10g_home1translistenerfslow-VIP”的情况为“不成功”。集群管理器尝试将常见故障自动迁移到“S-EIP-APP”连接点,但常见故障仍然存在。
2)尝试处理10.1.1.2服务器重启系统软件,但问题依然存在。
3)登录10.1.1.2网络服务器,查看恶性事件日志,发现报警信息和错误报告:“安全网检测到网络服务器DNS/s-xx1.hq.cxxp.xxx认证错误,认证协议kerbers传来的不成功代码为登录失败,可能是因为登录名或认证信息无效”,如图:
4)从图中日志可以看出,类似的“未知登录名和密码错误”是不正确的。因为Windows2003集群管理器选择AD域进行标准化管理,咨询AD域管理器才知道AD域的用户名和密码之前已经更改过。
5)此时盘点的关键是如何在门户网的集群管理器中更改AD域的全新登录密码。查阅官网KB和网上资料后,尝试在集群管理器中更改AD域的登录密码:
分别登录10.1.1.1和10.1.1.2,在“服务项目”-“登录”-“修改密码”中修改“集群服务”,如图:
6)在“集群服务”服务项中更改登录密码后,问题仍然存在,在集群管理器中的“S-EIP-数据”中查询“OracleServicesforMSCS”仍然不成功。查询日志显示还是客户登录密码的问题,如图:
7)解决方法:分别在10.1.1.1和10.1.1.2的“服务”中修改“oracleMSCSServices”账户的密码,如图:
8)更改后,集群管理器“S-EIP-数据”主题活动资源中的“EAIEIP”资源仍处于未成功状态,如图所示:
9)从上图的错误报告可以看出,oraclefailsafe的常见故障迁移集群的客户登录密码不正确。根据以上工作经验,oraclefailsafe应选择AD域的用户名和密码,并尝试修改密码:
登录10.1.1.2-开头-程序流程-"Oracle-ofS34_home1"-"OracleServicesforMSCS安全设置"并更改新的AD域用户名和密码。
10)将所有与AD域管理员帐户相关的登录密码更改为与AD域一致后,问题得到解决,集群管理器功能正常,业务流程恢复。
常见故障在系统软件的前期整体规划中,立即选择AD域管理员的客户登录密码进行管理的方法,而AD域服务器的域用户名和密码进行了更改,但在系统软件中没有进行相对的更改,导致了这种常见的故障。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)