使用CHM收集系统资源数据

作者简介:张萧,现就任于北京海天起点技术服务股份有限公司山东办事处,担任数据库工程师,持有11g OCP证书,主要服务于电信行业,具有丰富的一线工作经验。

Cluster Health Monitor(CHM) 用来收集操作系统统计信息(系统指标),例如内存和交换空间使用情况,进程,IO使用情况和网络相关数据。这些系统资源数据对于诊断集群系统的节点重启、Hang、实例驱逐(Eviction)、性能问题以及需要系统指标和数据的任何其他问题等是非常有帮助的。

11.2.0.2之前的版本中,CHM收集间隔通常是每秒一次,在11.2.0.3中,CHM收集间隔更改为每5秒一次。目前,收集间隔不能更改。

Cluster Health Monitor(CHM)支持平台:

11.2.0.2及更高版本的Oracle Grid Infrastructure for Linux(不包括Linux ItaniumIBM Linux Z)Solaris(Sparc 64x86-64)

11.2.0.3及更高版本Oracle Grid Infrastructure for AIXWindows(不包括 Windows Itanium)

Linux上的11.2.0.1及更早版本需从OTN下载

https://www.oracle.com/technetwork/cn/database/options/clustering/downloads/ipd-download-homepage-087562-zhs.html

CHM资源的管理

CHM对应的资源名叫ora.crf

CHM资源的启动和停止,只影响是否收集CHM的数据,不会对GIDB产生影响。

CHM主要包括两个服务:

System Monitor Service(osysmond):

在所有节点都会运行,osysmond会将每个节点的资源使用情况发送给cluster logger service,后者将会把所有节点的信息接受并保存到CHM的资料库。

Cluster Logger Service(ologgerd):

在每个集群中的ologgerd都会有一个主节点和备节点。当ologgerd在当前的节点遇到问题无法启动后,它会在备节点启动。

主节点:

备节点:

CHM Repository:用于存放收集到的数据。存储库的大小可以增加以收集和保存数据长达3天,可以使用OCLUMON来调整它的存放路径以及允许的空间大小,保留时间。

如果CHM作为11.2安装的一部分安装在支持的平台上,则oclumon的位置在GI_HOME/bin目录中。

如果使用OTNCHM文件手动安装CHM,则oclumon的位置在:

收集CHM数据的方法有两种:

Grid_home/bin/diagcollection.pl

incidenttime指的是从什么时间开始收集数据,参数格式为MM/DD/YYYY 24HH:MM:SS

incidentduration指的是从收集开始时间后多长时间的数据,参数格式为HH:MM

12.1及更高版本中,由于CHM数据存储在仅在主节点上打开的单实例MGMTDB中,因此上述命令仅从运行MGMTDB的主节点上运行才有效。

确定cluster logger service 的主节点:

root身份在主节点执行下面的命令:

执行diagcollection.pl脚本后创建一个名为chmosData_host_name_time_stamp.tar.gz的文件

OCLUMON

默认情况下会把所有输出都显示在命令行,不便于分析,一般都是直接重定向输出到某个文件。

 

 

未经允许不得转载:Oracle一体机用户组 » 使用CHM收集系统资源数据

相关推荐