ASM数据盘被dd后处理过程

作者简介:杨春龙,现就职于北京海天起点,持有Oracle 10g OCP 、Oracle 11g OCP、Oracle 11g OCM证书。7年移动、联通、电信三大运营商现场运维经验。擅长Oralce数据库性能优化、故障处理。

 

故障背景:某现场常规割接,涉及主机更换硬件、存储调整、数据库重启、应用升级等操作。

故障环境为两节点的rac,配有ADG备库一台

操作系统为:7100-02-03-1334

数据库版本:Oracle 12cR1

故障分析处理过程

割接当晚,数据库停掉之后应用人员对应用侧进行升级操作,主机人员更换主机电源 ,存储人员进行存储调整,在各项工作完成后,启动数据库时,数据库无法正常启动 ,检查alert日志发现group 2 开始由Oracle自行强制Dismount,与test_dat1相关的文件也出现报错;

检查ASM日志发现

分析各日志发最终发现有三块数据盘在数据库shutdown期间被执行了dd操作。

尝试使用kfed读取/dev/rhdiskpower44磁盘头 ,由于/dev/hdiskpwoer44被dd,所以磁盘前800M 信息已经丢失,因此kfed read时无输出 ,kfed repair也不能成功。

至此,被DD的磁盘在没有镜像备份的情况下只能宣告无法恢复。为不影响营业厅开机,将数据库以failover模式切换至ADG备库 ,应用侧开始修改应用配置 ,向备库连接。

后续分析:

查询root操作记录,存储工程师进行了大量的dd与rmdev操作,导致了数据盘被格式化。

后续总结

在现场的运维过程中,误操作情况时有发生,各厂家之间沟通不及时也都是不争的事实。建议在每次割接之前集中开会讨论,各参与割接的厂家分别说明一下割接当天各自的工作内容,防止他人工作内容对自己维护范围内的设备、服务器、应用等造成不必要的影响。

未经允许不得转载:Oracle一体机用户组 » ASM数据盘被dd后处理过程

相关推荐