某公司 ExalogicX4-2应用一体机故障 处理及分析报告

作者简介:王福贵,现就职于北京海天起点技术服务股份有限公司。担任Oracle一体机高级工程师,具有12年以上电信、政府、石油、汽车行业系统运维经验。持有SUN、IBM、Oracle等多项原厂认证证书。擅长Oracle Exadata一体机、Oracle Exalogic一体机及SUN产品运维、优化和故障诊断。

概述

    客户有一套Oracle Exalogic X4-2半配一体机,其中包含16个计算节点、一套ZFS存储、一台思科交换机、三台IB交换机。4月1日21点30分左右,接到ERP反馈,应用无法访问,远程重启计算节点后,故障未解决。现场重启所有节点和IB交换机,并恢复IB交换机配置后,服务恢复正常。

问题处理过程及故障原因分析

在故障发生后,工程师马上进行了远程查看和分析,没有发现明显问题。于是决定尝试重启来解决问题。工程师到现场重启一体机后,发现计算节点业务段网络不通。由于Exalogic X4-2业务网段使用的是IB Switch,所以需要进一步排查IB Switch。

查看IB配置信息:

由于一体机重启导致IB Switch配置丢失。

重新配置IB Switch:

参考配置文件/conf/bx.conf文件进行重新配置:

IB Switch配置完成后,网络恢复正常,应用也恢复了正常。

故障处理完成后,我们结合各个节点日志分析,发现日志报错与官方发布的bug- 22521735一致。每个计算节点在故障发生时都有Apr 1 21:49:50 el01cn01 kernel: mlx4_ib_event MLX4_DEV_EVENT_PORT_DOWN (port:2)的相关报错,IB交换机的节点上都有Apr 01 21:41:51 770717 [B5E77B90] 0x01 -> __osm_sm_mad_ctrl_send_err_cb: ERR 3113: SubnGet(NodeInfo) completed in error (IB_TIMEOUT): attr_mod 0x0, TID 0x16a629d的相关报错。此bug会导致计算节点IB网络端口频繁宕掉,从而会导致应用出现问题。Oracle官方文档和一体机相关日志可以参考本报告附件一和附件二!

建议和解决方案

由于应用一体机软件版本较老,建议使用官方PSU进行升级。

针对此次故障,我们给出以下解决方案:

Exalogic整体升级

建议升级到Exalogic October 2016 PSU或以上版本,以便减少bug发生,提高系统运行稳定性。

及时更新补丁

Oracle官方基本每个季度都会发布相应补丁,建议后续加快升级的频率。

附件一 Exalogic日志

一体机各个节点日志:

附件二 Oracle官方文档

Exalogic Compute Node IB Network Going Down Frequently With
Mlx4_ib_event MLX4_DEV_EVENT_PORT_DOWN Error Messages

APPLIES TO:

Oracle Exalogic Elastic Cloud Software – Version 2.0.6.2.4 and later
Linux x86-64

SYMPTOMS

In Exalogic Linux Physical racks issue of Compute nodes IB network going down frequently is seen.

Exalogic compute node report failed bond1 (IPOIB ) interface. Several mlx4_ib_event MLX4_DEV_EVENT_PORT_DOWN messages are seen in /var/log/messages.

Below are error messages in /var/log/messages system logs on Compute Node.

CAUSE

This issue happens due to Known Bug 22521735.

Below messages are seen in the switch opensm logs on IB Switches just before the ports go down, which shows that these HCA ports were timing out.

SOLUTION

This issue is fixed in UEK kernel 2.6.39-400.281.1 and above

In order to fix this issue upgrade to Exalogic October 2016 PSU or above which have compute node kernel version 2.6.39-400.283.1.el5uek & above where the issue is fixed.

附件三 bx.conf配置文件

 

 

未经允许不得转载:Oracle一体机用户组 » 某公司 ExalogicX4-2应用一体机故障 处理及分析报告

相关推荐