文档库 最新最全的文档下载
当前位置:文档库 › 通过SQL定时分析表监控Unix系统性能

通过SQL定时分析表监控Unix系统性能

通过SQL定时分析表监控Unix系统性能
通过SQL定时分析表监控Unix系统性能

通过SQL定时分析表监控Unix系统性能

一、前言

作为Unix系统中的Oracle数据库管理员,时刻监控操作系统的性能无疑是非常重要的,幸运的是Unix系统提供了大量的监控命令,比如vmstat, iostat, sar, top等等,这些监控命令均以字符界面输出结果,再加上Unix系统中shell的强大分析功能,这样我们只需要编写一些脚本就可以实现自动的后台监控,当有问题的时候再自动发送邮件给DBA。

其实相类似的一些监控脚本可能已经随处可见了,但是本文提到的一个新的思路,就是利用Oracle数据库的statspack空间来存储监控的结果,再利用数据库天生的检索优势,这样比以往靠shell分析甚或是人工分析生成的监控结果文件要更加轻松,智能,同时也能实现更持久和更广泛的监控。

本文大部分素材来源自Donald K. Burleson的Oracle9i Unix Administration Handbook,但是对于脚本中的一些错误和不合理的地方作了修改,并且添加了一些功能,本文的测试环境全部基于Sun Solaris 8 Sparc 64bit + Oracle9.2.0.5。

本文第一版主要以监控内存消耗和CPU等待的vmstat命令为例,将陆续添加iostat 等其它命令的监控脚本。

二、思路

首先安装statspack,然后手工创建一个用于存储vmstat命令输出结果的表,再作一个shell定时执行vmstat,将结果全部插入数据库表中,最后就是通过SQL定时分析表中的数据,超过预先指定的门限值就告警。同时根据表中的数据,我们还能作出系统性能的趋势报告。

三、 vmstat脚本及步骤

1. 安装statspack

按照提示设定perfstat用户的密码之后,由于是10g,我选择了SYSAUX表空间作为perfstat用户的默认表空间,而没有另行创建表空间。

2. 创建stats$vmstat表

# create_vmstat_tab.sql

drop table stats$vmstat;

create table stats$vmstat

(

start_date date,

duration number,

server_name varchar2(20),

running_queue number,

waiting_queue number,

swap_in number,

swap_out number,

kbytes_page_in number,

Kbytes_page_out number,

page_scan number,

user_cpu number,

system_cpu number,

idle_cpu number,

wait_cpu number

)

tablespace sysaux

storage (initial 10m

next 1m

pctincrease 0)

;

comment on column stats$vmstat.start_date

is '监控时间';

comment on column stats$vmstat.duration

is '监控时长';

comment on column stats$vmstat.server_name

is '服务器名称';

comment on column stats$vmstat.running_queue is '执行队列';

comment on column stats$vmstat.waiting_queue is '等待队列';

3. 创建vmstat目录

在oracle用户主目录下创建用于存放所有相关脚本的vmstat目录。

4. 创建get_vmstat.ksh脚本

改脚本用于定时执行vmstat命令并且将结果存入数据库。

#----------------------------------------

ORACLE_SID=kamusdb

export ORACLE_SID

ORACLE_HOME=`cat /var/opt/oracle/oratab|grep

^$ORACLE_SID:|cut -f2 -d':'`

export ORACLE_HOME

PATH=$ORACLE_HOME/bin:$PATH

export PATH

SERVER_NAME=`uname -a|awk '{print $2}'`

typeset -u SERVER_NAME

export SERVER_NAME

#----------------------------------------

# 每5分钟运行一次vmstat(300秒),可以根据实际情况修改 . . . .

#----------------------------------------

SAMPLE_TIME=300

#----------------------------------------

# 脚本一旦运行将不会停止,除非关闭操作系统 . . . .

# -S参数表示监控swap空间的情况,报告si,so列

# msg$$中的$$表示一个任意2位数字,系统自动生成

#----------------------------------------

while true

do

vmstat –S ${SAMPLE_TIME} 2 > /tmp/msg$$

#----------------------------------------

# Solaris系统的vmstat没有wait CPU统计,所以我们在那一

列中存入0

# $1, $2, $6, $7等数字分别表示vmstat输出中的第几列,

# 每个Unix系统中的vmstat输出可能都不一样,

# 所以修改这些列号,就可以应对不同的操作系统。

#----------------------------------------

cat /tmp/msg$$|sed 1,3d | awk '

{ printf("%s %s %s %s %s %s %s %s %s %s n",

$1, $2, $6, $7, $8, $9, $12, $20, $21, $22) }'

| while read RUNQUE WAITQUE SWAPIN SWAPOUT

PAGE_IN PAGE_OUT PAGE_SCAN USER_CPU SYSTEM_CPU IDLE_CPU do

$ORACLE_HOME/bin/sqlplus perfstat/perfstat <

insert into perfstat.stats$vmstat

values (

SYSDATE,

$SAMPLE_TIME,

'$SERVER_NAME',

$RUNQUE,

$WAITQUE,

5. 创建run_vmstat.ksh脚本

该脚本放在crontab中,用来定时检查get_vmstat.ksh脚本有没有正常运行,如果在运行,那么不作任何动作,如果不在运行,那么就运行get_vmstat.ksh脚本。这个脚本的意义在于防止重新启动操作系统之后忘记运行get_vmstat.ksh脚本。

# run_vmstat.ksh

#!/bin/ksh

#----------------------------------------

# 首先设定环境变量,根据实际环境修改. . . .

#----------------------------------------

SCRIPT_PATH=`echo ~oracle/vmstat`

export SCRIPT_PATH

ORACLE_SID=kamusdb

export ORACLE_SID

ORACLE_HOME=`cat /var/opt/oracle/oratab|grep $ORACLE_SID:|cut -f2 -d':'`

export ORACLE_HOME

PATH=$ORACLE_HOME/bin:$PATH

export PATH

#----------------------------------------

# 作更进一步地控制,在系统没有操作的时间内停止监控

# 晚上8点到第二天凌晨8点之间停止监控

# 其它时间如果get_vmstat不在运行,就运行它

#----------------------------------------

HOUR=`date +"%H"`

check_stat=`ps -ef|grep get_vmstat|grep -v grep|wc -l`

vmstat_num=`expr $check_stat`

6. 创建crontab作业,定时执行run_vmstat.ksh脚本

该作业每半小时运行一次。

7. 分析数据

至此已经完成了定时运行vmstat和在数据库中存储vmstat结果的步骤。自然,仅仅是搜集了统计信息是远远不够的,下面我们要分析搜集来的信息,产生操作系统的性能报告。

将报告分为以下几类,分别用脚本实现。

异常报告:显示超过了门限值的时间段(vmstat_alert.ksh + vmstat_alert.sql)。

每小时趋势报告:显示一天内每小时的系统平均利用情况(rpt_vmstat_hr.sql)。周趋势报告:显示每天的系统平均利用情况(rpt_vmstat_dy.sql)。

1) 异常报告

column my_date heading 'date hour' format a20

column c2 heading waitq format 9999

column c3 heading pg_in format 9999

column c4 heading pg_ot format 9999

column c5 heading usr format 9999

column c6 heading sys format 9999

column c7 heading idl format 9999

column c8 heading wt format 9999

ttitle 'run queue > CPUs|May indicate an overloaded CPU| When runqueue exceeds the number of CPUs| on the server, tasks are waiting for service.';

select

server_name,

to_char(start_date,'YY/MM/DD HH24') my_date,

avg(running_queue) c2,

avg(kbytes_page_in) c3,

avg(kbytes_page_out) c4,

avg(user_cpu) c5,

avg(system_cpu) c6,

avg(idle_cpu) c7

from

perfstat.stats$vmstat

WHERE

running_queue > 4

and start_date > sysdate-&1

group by

server_name,

to_char(start_date,'YY/MM/DD HH24')

ORDER BY

server_name,

to_char(start_date,'YY/MM/DD HH24')

;

ttitle 'page_scan > 1|May indicate overloaded memory| Whenever Unix performs a page-in, the RAM memory |

on the server has been exhausted and swap pages are being used.';

select

server_name,

to_char(start_date,'YY/MM/DD HH24') my_date,

avg(running_queue) c2,

avg(kbytes_page_in) c3,

avg(kbytes_page_out) c4,

avg(user_cpu) c5,

avg(system_cpu) c6,

avg(idle_cpu) c7

from

perfstat.stats$vmstat

WHERE

page_scan > 1

and start_date > sysdate-&1

group by

server_name,

to_char(start_date,'YY/MM/DD HH24')

ORDER BY

server_name,

to_char(start_date,'YY/MM/DD HH24')

;

ttitle 'user+system CPU > 70%|Indicates periods with a fully-loaded CPU subssystem.|Periods of 100% utilization are only a | concern when runqueue values exceeds the number of CPs on the server.';

select

server_name,

to_char(start_date,'YY/MM/DD HH24') my_date,

avg(running_queue) c2,

avg(kbytes_page_in) c3,

avg(kbytes_page_out) c4,

avg(user_cpu) c5,

avg(system_cpu) c6,

avg(idle_cpu) c7

from

perfstat.stats$vmstat

WHERE

(user_cpu + system_cpu) > 70

and start_date > sysdate-&1

group by

server_name,

to_char(start_date,'YY/MM/DD HH24')

ORDER BY

server_name,

to_char(start_date,'YY/MM/DD HH24')

# vmstat_alert.ksh

#----------------------------------------

# 可以将此shell加入cron中,每天7点运行

#----------------------------------------

#!/bin/ksh

#----------------------------------------

# 首先设定环境变量,根据实际环境修改. . . .

# 接受一个参数输入,表示当前要报告的数据库SID

#----------------------------------------

ORACLE_SID=$1

export ORACLE_SID

ORACLE_HOME=`cat /var/opt/oracle/oratab|grep $ORACLE_SID:|cut -f2 -d':'`

export ORACLE_HOME

PATH=$ORACLE_HOME/bin:$PATH

export PATH

SCRIPT_PATH=`echo ~oracle/vmstat`

export SCRIPT_PATH

sqlplus perfstat/perfstat<

spool /tmp/vmstat_$ORACLE_SID.lst

@$SCRIPT_PATH/vmstat_alert 7 4

1.创建crontab作业,每天7点定时执行vmstat_alert.ksh脚本

2) 每小时趋势报告

3) 周趋势报告

好了,有了这些报告。我们就只需要编写一些脚本就可以实现自动的后台监控,当有问题的时候再自动发送邮件给DBA。

相关文档