职业IT人-IT人生活圈

 找回密码
 成为会员
搜索
查看: 414|回复: 1

某公司的Linux数据库双机热备故障,系统和数据库服务商争执中

[复制链接]
紫衿 发表于 2011-8-27 09:49 | 显示全部楼层 |阅读模式
某公司的主业务数据库采用的是两台红帽5服务器+1个存储磁盘阵列做成的双机热备。两台机器上均安装Oracle10.2数据库。库本身建在磁盘阵列上。一旦某个机器出现故障,就切换到另外一台。使用的是红帽的RHCS方案。
前段时间因为数据库速度有些慢,希望通过调整参数提高性能。数据库服务商认为可以将SGA_TARGT_MAX从原来的8G提高到10G,以提供更多的内存来缓解压力。因为来公司调整的时候数据库处于非空闲时间,所以只是修改了参数,准备周一早上重启。但是周一早上的启动发生了问题,数据库无法按照新修改的参数启动。通过1个多小时的折腾,数据库自己做了切换,在后备服务器上自己启动了,还好没耽误周一的业务。为此,周一晚上22点,服务商专门派人深夜进行调试。首先修改了Linux内存参数,以提高可用内存上限。然后将服务器的Oracle SGA_TARGT_MAX参数调整到10G。因为在后备服务器上运行很好,就没有切换回原来的服务器。
本以为事情到此结束。但是运行数天后,Oracle数据库突然DOWN机。Oracle数据库吃掉了所有的内存和CPU时间,而且无法切换。最后不得不冷加电重启。为此认为新的数据库参数存在问题,准备将数据库调整回原来的参数环境,包括服务器也改回原来的生产服务器。晚上进行调整,数据库参数成功返回原来的老参数。但是却发现服务器仍然无法切换回原来的生产服务器,只能使用后备服务器。在clustat命令中,始终显示后备服务器“started"(好像是这个,有点记不清楚了)。即使reboot了后备服务器,也无法切换回生产服务器。生产服务器df命令就是看不到数据库的那个磁盘阵列。但是fdisk -l可以看到。
第二天开始联系当初负责安装服务器集群的服务商,结果当时的施工人员还跳槽了,现在人在外省市。最后好歹对方派了个当初施工人员的小弟,由施工的那位友情远程指挥进行排查。得出的结论是因为生产服务器的Oracle数据库参数并没有完全还原,仍然有不正确参数,造成数据库无法启动。所以无法切换到生产服务器。
对此,数据库支持认为正好相反。是因为服务器的集群切换软件不能切换到生产服务器,挂不上磁盘阵列。所以生产服务器无法启动Oracle。双方都认为是对方的责任,目前仍然扯皮中。还好后备服务器目前工作还算正常,不然整个业务系统就杯具了,损失会非常严重。
希望大家在选择外包服务器和数据库维护的时候,一定要确认服务商的技术水平和人员稳定性。不然一旦出现问题,很可能就是这样,没有获得性能,倒惹了一大堆麻烦。早知道还不如不调整呢。
同时也希望和熟悉红帽集群和Oracle数据库的朋友一起讨论一下,到底哪家的说法是正确的。如果我们自己在日常配置服务器的时候,应该注意哪些问题呢?
我从该事件得到的就是。第一,对于自己不熟悉的机器一定要慎重,修改参数前一定要搞清楚原来的参数环境,做好备份。第二,一定要确认修改成功才能离开。第三,外包要找有足够水平的供应商,红帽+Oracle数据库是很常见的配置,居然也改出问题来,目前仍然无法确定切换的真正问题所在。

feiguo 发表于 2011-8-27 09:49 | 显示全部楼层
推荐链接
20-30万急聘多名天才Java/MTA软件工程师

见证又一个准百万富翁的诞生!
3G培训就业月薪平均7K+,不3K就业不花一分钱!

您需要登录后才可以回帖 登录 | 成为会员

本版积分规则

QQ|手机版|小黑屋|网站帮助|职业IT人-IT人生活圈 ( 粤ICP备12053935号-1 )|网站地图
本站文章版权归原发布者及原出处所有。内容为作者个人观点,并不代表本站赞同其观点和对其真实性负责,本站只提供参考并不构成任何投资及应用建议。本站是信息平台,网站上部分文章为转载,并不用于任何商业目的,我们已经尽可能的对作者和来源进行了通告,但是能力有限或疏忽造成漏登,请及时联系我们,我们将根据著作权人的要求立即更正或者删除有关内容。

GMT+8, 2024-5-4 01:18 , Processed in 0.113287 second(s), 20 queries , Gzip On.

Powered by Discuz! X3.4

Copyright © 2001-2021, Tencent Cloud.

快速回复 返回顶部 返回列表