文档库 最新最全的文档下载
当前位置:文档库 › IBM系列AIX小型机巡检项目及流程参考

IBM系列AIX小型机巡检项目及流程参考

IBM系列AIX小型机巡检项目及流程参考
IBM系列AIX小型机巡检项目及流程参考

IBM系列AIX小型机巡检项目及流程参考

链接:https://www.wendangku.net/doc/6112494403.html,/digest/2008/12/ibm_aix_checking.html

站内相关文章|Related Articles

AIX 系统中PVID 的含义与作用

vim全局替换命令参考

如何在shell脚本里使用sftp批量传送文件

IT人物之- 惠普CEO Mark Hurd

IBM AIX svmon 简介之一

1、机器型号

# uname -uM

IBM,7029-6E3 IBM,01100550A

# prtconf|more

2、检查系统硬件设备故障灯是否有亮

3、系统错误报告

# errpt -d H -T PERM //硬件的错误报告

IDENTIFIER TIMESTAMP T C RESOURCE_NAME DESCRIPTION

BFE4C025 0530085308 P H sysplanar0 UNDETERMINED ERROR

BFE4C025 0529091308 P H sysplanar0 UNDETERMINED ERROR

# errpt -d S -T PERM //软件的错误报告

# errpt -aj *******|more //具体的错误信息

# errpt -d H -T PERM>/tmp/hwerror.log //可以把错误的报告存成一个文件

4、有否给root 用户的错误报告

# mail

Mail [5.2 UCB] [AIX 5.X] Type ? for help.

"/var/spool/mail/root": 5 messages 3 new 5 unread

U 1 root Thu May 15 09:53 24/884 "diagela message from p615"

U 2 root Fri May 16 04:07 24/884 "diagela message from p615" >N 3 root Sat May 24 13:08 23/874 "diagela message from p615"

5、检查hacmp.out, smit.log, bootlog 等

# lssrc -g cluster/#>lssrc -g cluster

Subsystem Group PID Status

clstrmgrES cluster 16334 active

一般上hacmp.out 的位置:/usr/sbin/cluster/ 或者/tmp/

然后找到最近的hacmp.out 文件,察看有没有错误信息

6、文件系统检查

# df -k

Filesystem 1024-blocks Free %Used Iused %Iused Mounted on

/dev/hd4 131072 101568 23% 2268 4% /

/dev/hd2 1441792 31256 98% 36056 11% /usr

/dev/hd9var 131072 117048 11% 418 2% /var

看看有没有超过90% 使用率的,建议用户改善

7、逻辑卷有否"stale" 的状态

# lsvg -l rootvg

LV NAME TYPE LPs PPs PVs LV STATE MOUNT POINT

hd5 boot 1 1 1 closed/syncd N/A

hd6 paging 4 4 1 open/syncd N/A

hd8 jfslog 1 1 1 open/syncd N/A

hd4 jfs 1 1 1 open/syncd /

hd2 jfs 11 11 1 open/syncd /usr

hd9var jfs 1 1 1 open/syncd /var

如果系统还有其他卷组,也需要察看

8、内存交换区的使用率是否超过70%

# lsps -a

Page Space Physical Volume Volume Group Size %Used Active Auto Type hd6 hdisk0 rootvg 512MB 1 yes yes lv

9、系统性能是否有瓶颈

# topas

# vmstat 1 10

kthr memory page faults cpu

----- ----------- ------------------------ ------------ -----------

r b avm fre re pi po fr sr cy in sy cs us sy id wa

0 0 110029 408618 0 0 0 0 0 0 4 602 75 0 1 99 0

0 0 110031 408616 0 0 0 0 0 0 1 562 54 1 0 99 0

0 0 110031 408616 0 0 0 0 0 0 3 628 84 0 0 99 0

# iostat 1 10

tty: tin tout avg-cpu: % user % sys % idle % iowait

0.0 394.0 0.0 0.0 100.0 0.0

Disks: % tm_act Kbps tps Kb_read Kb_wrtn

hdisk0 0.0 0.0 0.0 0 0

hdisk1 0.0 0.0 0.0 0 0

cd0 0.0 0.0 0.0 0 0

10、网络与通讯检查

# ifconfig -a

# netstat -in

Name Mtu Network Address Ipkts Ierrs Opkts Oerrs Coll

en0 1500 link#2 0.9.6b.3e.6.ac 1964 0 534 0 0

en0 1500 192.168.0 192.168.0.11 1964 0 534 0 0

lo0 16896 link#1 267 0 413 0 0

lo0 16896 127 127.0.0.1 267 0 413 0 0

# netstat -rn //察看路由情况

Routing tables

Destination Gateway Flags Refs Use If Exp Groups

Route Tree for Protocol Family 2 (Internet):

127/8 127.0.0.1 U 7 142 lo0 - -

192.168.0.0 192.168.0.11 UHSb 0 0 en0 - - =>

# vi /etc/hosts //察看hosts 文件有否特殊的定义

# ping ****

#lsattr -El inet0 //路由的检测

authm 65536 Authentication Methods True hostname h24 Host Name True

gateway Gateway True

route net,,0,172.16.23.81 Route True

bootup_option no Serial Optical Network Interface True

rout6 FDDI Network Interface True

11、有否符合要求的系统备份

第一次去可以先询问客户关于备份的策略

# ls -l /image.data //看看系统有没有备份的image 文件,记录最后备份日期

-rw-r--r-- 1 root system 9600 May 19 17:31 /image.data

# lsvg -l rootvg //察看有否符合要求的数据备份和保护

LV NAME TYPE LPs PPs PVs LV STATE MOUNT POINT hd4 jfs 1 1 1 open/syncd /

hd2 jfs 11 11 1 open/syncd /usr

hd10opt jfs 1 1 1 open/syncd /opt

oraclelv jfs2 80 160 1 open/syncd /oracle

loglv00 jfs2log 1 1 1 open/syncd N/A

testlv jfs 10 20 1 closed/syncd /tmp/test

如何察看数据保护方式RAID10/RAID5,RAID 的Hotspare 属性是否打开

#smitty ssaraid? Change/Show Attributes of an SSA RAID Array

检查Enable Use of Hot Spares属性是否为YES

12、系统Dump 设置是否正确

# sysdumpdev -l

primary /dev/hd6

secondary /dev/sysdumpnull

copy directory /var/adm/ras

forced copy flag TRUE

always allow dump FALSE

dump compression OFF

# sysdumpdev P p /dev/hd6 s /dev/sysdumpnull

# sysdumpdev -P -c

13、HACMP 测试

# /usr/sbin/cluster/diag/clconfig -v '-tr' // Cluster Verification 输出结果无Fail # /lssrc -g cluster

14、maxpout, minpout 系统参数

如果系统中运行了HACMP

smitty chgsysy,将High/Low water mark从0/0修改为33/24

# lsattr -El sys0|grep maxpout

//maxpout 用途:对文件指定未决I/O 的最大数目

值:缺省值:0(不检查);范围:0 到n(n 应该是 4 的倍数加1)

# lsattr -El sys0|grep minpout

//指定一个基点,在该基点处,已达到maxpout 的程序可以继续写入文件

值:缺省值:0(不检查);范围:0 到n(n 应该是 4 的倍数,且大于或等于4 小于maxpout)

15、syncd 参数

# grep syncd /sbin/rc.boot //sync() 被syncd 调用的间隔时间

nohup /usr/sbin/syncd 10 > /dev/null 2>&1 &

值:缺省值:60;范围:1 到任何正整数

显示:grep syncd /sbin/rc.boot 或vi /sbin/rc.boot

更改:更改在下次引导后有效,而且是永久有效。备用方法是使用命令kill 来终止守护程序

syncd 并用命令/usr/sbin/syncd interval 从命令行重新启动它。

诊断:当syncd 正在运行时,文件的I/O 被阻塞了。

调整:在缺省级别上,这个参数几乎不影响性能。不推荐对这个参数进行更改。为了保持数据完整

性对于HACMP而使syncd interval 明显缩小,会导致性能下降。

更改命令为:

#vi /sbin/rc.boot

16、aio 参数//异步I/O 可调参数

# lsdev -C|grep aio

察看状态是否是available

# lsattr -El aio0

minservers 1 MINIMUM number of servers True

maxservers 10 MAXIMUM number of servers True

maxreqs 4096 Maximum number of REQUESTS True

kprocprio 39 Server PRIORITY True autoconfig available STATE to be configured at system restart True fastpath enable State of fast path True

# smit aio //可以更改参数

17、检查errdaemon, srcmstr 是否正常运行

# ps -ef|grep err

# ps -ef|grep src

18、系统硬件诊断

# diag

-> Diagnostic Routines

-> System Verification

-> All Resources

-> F7 或者Esc+7

19、补丁程序PTF 是否满足要求,当前系统补丁版本

#oslevel -r

5300-04

#instfix -i|grep

All filesets for 5.3.0.0_AIX_ML were found.

All filesets for 5300-01_AIX_ML were found.

All filesets for 5300-02_AIX_ML were found.

All filesets for 5300-03_AIX_ML were found.

All filesets for 5300-04_AIX_ML were found.

All filesets for 5300-05_AIX_ML were found.

# lscfg -vp //检查所有设备的微码

20、收集系统信息放到/tmp/ibmsupt

# snap -ac //运行#snap -ac,生成文件snap+s/n.pax.Z

IBM P750小型机日常维护手册

IBM P750小型机 日常维护手册 一、服务器硬件运行状态检查 1.当服务器处于启动和正常工作状态时,其前面板上的状态灯(与电源灯并排)和各硬盘的状态灯(一排 小灯,与各硬盘位置一一对应)应显示为绿色。 2.当服务器的状态灯出现橙黄色时,说明有硬件告警,此时要检查服务器的电源、接线、硬盘等。如果有 硬件故障则需要立即进行更换和更正,如果查不出具体问题,则需要联系相关专家进一步诊断。 3.当硬盘工作正常时,与各硬盘对应的硬盘灯会呈绿色,如无读写,则绿灯一直亮,如该硬盘有读写操作, 则绿灯会不规则闪烁,当硬盘损坏时,则硬盘状态灯将熄灭,或者呈闪烁状态:以1~3秒的频率有规律地、不停地闪烁。 如果发现有服务器硬件状态灯不正常的情况,请及时联系我公司工程师,以便及时进行诊断并解决故障。 二、HMC(硬件管理平台)管理与操作 HMC的两种访问途径: 1、在机房直接通过显示器和键盘进行管理维护等相关操作 2、通过web远程访问,登录HMCweb管理界面,访问地址为:https://

1、登录HMC 1.1 浏览器访问连接HMC后,首页界面如下图所示。 1.2 点击下图所示链接,进入HMC验证登录界面。 1.3 输入用户名与口令,登录HMC。 用户名:hscroot 口令:

1.4 成功登录到HMC管理界面如下图所示。 2、注销HMC 在HMC console右上角有(hscroot|help|log off)链接,单击log off,会出现如下图所示注销界面:

选择Log off,系统返回到HMC初始登录界面状态。 3、重启HMC 左边导航栏中选择→HMC Management→shut down or Restart,如下图所示,对HMC进行正常重启及关机操作。 请谨慎对HMC进行关机和重启操作!

巡检服务报告(IBM小型机)v1.3

IBM小型机系统预防性维护服务报告单 客户名称:机器型号序列号 检查时间:20 年月日时本年度第次检查机器名 1. 机房环境: 电源电压□符合要求□不符合;零地电压□符合要求□不符合温度、湿度:□符合要求□不符合 2. 检查系统硬件情况: 设备故障灯是否有亮:3. 系统错误报告(Error Log): 有否硬件故障:□有 □有 □无;有其他否异常情况:□有 □无;启动日志:□正常 □无 □不正常 mail中有否错误报告:□有□无;服务进程日志:□正常□不正常 4. CPU有否被disable:□有□无;CPU GUARD设置:□正确□不正确 5. 逻辑卷: 6. 有否"stale"状态的逻辑卷:□有□无 7. 关键文件系统: 使用率是否正常:□是□否;JFSLOG设置:□正常□不正常 8. 磁带机是否需要清洗:□需要□不需要 9. SAN交换机是否正常:□正常□不正常□没有 10. 通信: 网卡的状态、IP地址:□正常□不正常网卡通信(ping):□正常□不正常/etc/hosts文件或DNS设置:□正常□不正常 路由表设置:□正常□不正常;域名设置:□正常□不正常11. 磁盘阵列RAID盘的状态: IBM存储型号数据保护方式□Cache打开 □有热备盘 □Cache关闭 □无热备盘 12. 机器清洁: 根据需要清洁机器各部件:□已清洁□不需要 过滤网是否需要更换:□要更换□不需要 13. 补丁程序(PTF) 系统补丁级别: 最新补丁级别: 微代码(Microcode) 系统微码级别: 最新微码级别: 网卡、控制卡、硬盘微码是否需要升级:□是□否请与客户沟通是否需要升级系统补丁和微码:□是□否14. 系统硬件诊断: 系统板、CPU、内存、I/O板□正常□不正常

IBM AIX小型机巡检内容及操作指导

IBM RS/6000巡检内容及操作指导 1. IBM RS6000小型机机房要求: 1.机房的卫生状况,要求清洁,键盘、显示器、机柜上没有灰尘。 2.温度(摄氏℃) 10 ℃-40℃ 湿度(%) 8% -80% 2.设备故障灯分类:? 主机故障灯 面板上不能有数字显示,如果有的话,说明系统有故障。 7133磁盘阵列故障灯 告警灯为黄色表示有故障 磁带机故障灯 告警灯为黄色说明有故障或磁带机太脏,须清洗。 3.系统错误报告(Error Log)的检查: 硬件故障检测命令:# errpt -d H -T PERM 若有故障执行命令# errpt -a -d H -T PERM>/tmp/harderror.log保存,分析结果报告给客户 软件故障检测命令:# errpt -d S -T PERM 若有故障执行命令# errpt -a -d S -T PERM>/tmp/softerror.log保存,分析结果报告给客户 4.有否发给root用户的错误报告(mail): #mail 1.观察所有未读消息,注意有关diagela的消息。 2.常用命令: h [] Display headings of group containing message t [] Display messages in or current message. n Display next message. q Quit

3.对发现的问题详细分析,结果报告给客户 5.件系统的检查: 命令: # df –k %Used为文件系统的使用率。所有文件系统的使用率不能大于80% 6.磁带机清洁的检查: 命令: #/usr/lpp/diagnostics/bin/utape -cd rmt0 –n 显示结果为磁带机使用的小时数,若大于72小时,则不论磁带机黄灯是否亮都应用清洁带清洗。 6.信系统的检测: 1.网卡的状态 命令: #ifconfig –a 输出判断: en0: flags=e080863 inet 192.9.200.2 netmask 0xffffff00 broadcast 192.9.200.255 en1: flags=e080863 inet 192.9.201.1 netmask 0xffffff00 broadcast 192.9.200.255 主备网卡的flag为UP属正常。同时检查ip地址和netmask是否正确。 2.路由的检测 命令: #lsattr –El inet0 authm 65536 Authentication Methods True hostname h24 Host Name True

IBM小型机巡检报告

IBM Pxxx小型机 服务报告

目录 前言 (4) 第一章系统健康档案 (4) 1.1 CPU与内存 (4) 1.1.1 处理器数量 (4) 1.1.2 处理器物理位置 (4) 1.1.3 处理器主频和类型 (4) 1.1.4 内存大小 (4) 1.1.5 内存类型及物理位置 (5) 1.2 ADAPTER (5) 1.3 硬盘 (5) 1.4 光驱和磁带机等其他设备 (5) 1.5 逻辑卷及文件系统配置 (6) 1.5.1 rootvg (6) 第二章系统软件档案 (7) 2.1 操作系统版本及升级建议 (7) 2.2 主机微码版本及升级建议 (7) 2.3 高可用性集群软件配置情况 (7) 第三章系统性能分析报告 (8) 第四章问题汇总与分析报告 (9) 4.1 问题记录 (9)

4.2 问题分析 (9)

前言 该机SN号为:xxxxxxx ,作为xxx应用服务器。 第一章系统健康档案 1.1 CPU与内存 1.1.1 处理器数量 #lsdev -Ccprocessor * 共有——颗处理器 1.1.2 处理器物理位置 #lscfg –vp|grep proc 有两块处理器卡,proc0-proc7 在C1卡上;proc16-proc23在C4 CPU卡上1.1.3 处理器主频和类型 #lsattr -El proc0 1.1.4 内存大小 #lsdev -Ccmemory #lsattr -El L2cache0 #lsattr -El mem0 共32G内存

1.1.5 内存类型及物理位置 #lscfg –vp –l mem0 有4块8192MB内存卡,具体位置如下: 1.2 ADAPTER #lsdev -Ccadapter 1.3 硬盘 #lsdev -Ccdisk hdisk0与hdisk1是内置硬盘 hdisk2-hdisk49是P670通过光通道卡fcs0、fcs1识别IBM FC2105磁盘阵列的逻辑硬盘设备号#lsvpcfg 特别提醒:不要将hdsik2-hdisk49加入任何卷组(VG)中; 必须用vpath0-vpath12设备号创建卷组(VG) 内置硬盘大小: 1.4 光驱和磁带机等其他设备 #lsdev -Cctape #lscfg –vp -l rmt0 #lsdev -Cccdrom

小型机及存储维保服务方案

XXXX小型机和存储维保服务 技 术 方 案 XXXX 2015年5月15日

目录 一、专业化第三方服务的需求 _________________________________________________ 2 二、技术服务方案 __________________________________________________________ 4 1.服务对象和目标____________________________________________________________ 4 2.服务内容要点 _____________________________________________________________ 6 3.服务内容要点说明__________________________________________________________ 7 3.1保修期内服务范围_______________________________________________________ 7 3.2服务响应_______________________________________________________________ 8 3.3维护间隔与维护情况汇报_________________________________________________ 8 3.4定期巡检与预防性维护___________________________________________________ 8 3.5免费备件保证___________________________________________________________ 9 3.6免费技术服务___________________________________________________________ 9 3.7免费远程诊断___________________________________________________________10 3.8技术人员保障___________________________________________________________10 3.9保修期终止_____________________________________________________________11 4.服务质量保证______________________________________________________________11 4.1技术服务流程___________________________________________________________11 4.2服务的监督_____________________________________________________________13 4.3紧急事件升级机制_______________________________________________________14 4.4客户满意度调查_________________________________________________________15 4.5备件管理监督___________________________________________________________15 4.6项目组织监督___________________________________________________________15 4.7服务文档管理___________________________________________________________15 4.8服务质量评估___________________________________________________________15 4.9违约赔偿_______________________________________________________________15 4.10保修终止______________________________________________________________16 5.技术服务组织方案___________________________________________________________16 6.备件管理___________________________________________________________________16 6.1备件渠道_______________________________________________________________16 6.2备件管理流程___________________________________________________________16 6.3本项目的备件准备_______________________________________________________17 7.技术培训方案 _____________________________________________________________17 7.1专业培训内容___________________________________________________________17 8.免费的技术增值服务________________________________________________________17 8.1提供系统及应用整合方案_________________________________________________18 8.2出保期后技术支持服务___________________________________________________18

IBM 小型机巡检内容及操作指导

IBM 小型机巡检内容及操作指导 1. IBM 小型机小型机机房要求: 1.机房的卫生状况,要求清洁,键盘、显示器、机柜上没有灰尘。 2.温度(摄氏℃) 10 ℃-40℃ 湿度(%) 8% -80% 2.设备故障灯分类:? 主机故障灯 面板上不能有数字显示,如果有的话,说明系统有故障。 磁盘阵列故障灯 告警灯为黄色表示有故障 磁带机故障灯 告警灯为黄色说明有故障或磁带机太脏,须清洗。 3.系统错误报告(Error Log)的检查: 硬件故障检测命令:# errpt -d H -T PERM 若有故障执行命令# errpt -a -d H -T PERM>/tmp/harderror.log保存,分析结果报告给客户 软件故障检测命令:# errpt -d S -T PERM 若有故障执行命令# errpt -a -d S -T PERM>/tmp/softerror.log保存,分析结果报告给客户 4.有否发给root用户的错误报告(mail): #mail 1.观察所有未读消息,注意有关diagela的消息。 2.常用命令: h [] Display headings of group containing message t [] Display messages in or current message. n Display next message. q Quit

3.对发现的问题详细分析,结果报告给客户 5.文件系统的检查: 命令: # df –k %Used为文件系统的使用率。所有文件系统的使用率不能大于80% 6.磁带机清洁的检查: 命令: #/usr/lpp/diagnostics/bin/utape -cd rmt0 -n 显示结果为磁带机使用的小时数,若大于72小时,则不论磁带机黄灯是否亮都应用清洁带清洗。 #/usr/lpp/diagnostics/bin/utape -d rmt0 -n 会提示是否需要clean 6.信系统的检测: 1.网卡的状态 命令: #ifconfig –a 输出判断: en0: flags=e080863 inet 192.9.200.2 netmask 0xffffff00 broadcast 192.9.200.255 en1: flags=e080863 inet 192.9.201.1 netmask 0xffffff00 broadcast 192.9.200.255 主备网卡的flag为UP属正常。同时检查ip地址和netmask是否正确。 2.路由的检测 命令: #lsattr –El inet0 authm 65536 Authentication Methods True hostname h24 Host Name True

IBM小型机巡检手册

河南建行IBM小型机日常维护 第一篇:日常维护部分 第二篇:故障处理部分 第1章AIX系统管理日常工作(检查篇) 1.1常用的命令 1.2语法介绍 1.2.1vmstat:检查内存、CPU、进程状态 # vmstat 2 6 kthr memory page faults cpu ----- ----------- ------------------------ ------------ ----------- r b avm fre re pi po fr sr cy in sy cs us sy id wa 1 0 2813 2 81277 0 0 0 0 0 0 132 375 67 65 1 34 0 2 0 28132 81277 0 0 0 0 0 0 127 338 131 99 0 0 0 2 0 28132 81277 0 0 0 0 0 0 132 316 131 99 0 0 0 2 0 28132 81277 0 0 0 0 0 0 120 317 126 99 0 0 0 2 0 28132 81277 0 0 0 0 0 0 146 316 127 99 0 0 0

2 0 28132 81277 0 0 0 0 0 0 130 317 125 99 0 0 0 2 0 28132 81277 0 0 0 0 0 0 135 316 127 99 0 0 0 2 0 28132 81277 0 0 0 0 0 0 129 317 124 99 0 0 0 2 0 28132 81277 0 0 0 0 0 0 13 3 30 4 127 99 0 0 0 r:正在运行的进程 b:被阻挡的进程 avm:活动的虚内存,单位4kb fre:自由列表,位4kb po:页换出 pi:页换入 sy:系统占用CPU id:空闲CPU wa:等待的CPU 1.2.2sar:检查CPU、IO 例如: sar -u 1 30 sar -P ALL 1 10 语法: sar -[abckmqruvwyA] inteval repetition -b buffer 活动 -c 系统调用 -k 内核进程统计. -m 消息及信号量活动 -q 正在运行的队列数及等待队列数 -r 页交换统计 -u CPU利用 -P CPU负载.

HP小型机及存储巡检手册

第一章 1
HP 小型机巡检手册

2
检查机房环境
CONTENTS
目录
第一章 检查机房环境:
3
第二章 HP 小型机巡检
4
2.1
系统配置检查 ........................................................... 4
2.2
检查系统硬件情况: ..................................................... 8
2.3
系统日志检查 .......................................................... 11
2.4
LVM 相关检查 .......................................................... 15
2.5
集群状态的检查 ........................................................ 18
2.6
系统总体性能评估 ...................................................... 20
2.7
系统备份检查 .......................................................... 22
第三章 HP PC 服务器巡检
23
3.1
检查前面板指示灯 ...................................................... 23
3.2
查看 SMH(System Management Homepage ) ............................... 26
3.3
看 iml 日志 ........................................................... 26
3.4
查看系统操作日志 ...................................................... 26
3.5
看 BOIS 版本号 ........................................................ 27
第四章 HP 磁阵巡检
28
4.1
EVA 系列 .............................................................. 28
4.2
MSA 系列 .............................................................. 32

IBM小型机巡检内容及操作指导

IBM 小型机巡检内容及操作指导 1. 机房的卫生状况,要求清洁,键盘、显示器、机柜上没有灰尘。 2.温度(摄氏 C) 10 C — 40C 湿度( %) 8% - 80% 主机故障灯 面板上不能有数字显示,如果有的话,说明系统有故障。 磁盘阵列故障灯 告警灯为黄色表示有故障 磁带机故障灯 告警灯为黄色说明有故障或磁带机太脏,须清洗。 硬件故障检测命令: # errpt -d H -T PERM # errpt -a -d H -T PERM>/tmp/ 保存,分析结果报告给客户 # errpt -a -d S -T PERM>/tmp/ 保存,分析结果报告给客户 有否发给 root 用户的错误报告 (mail): 观察所有未读消息,注意有关 diagela 的消息。 Display headings of group containing message Display messages in or current message. Display next message. Quit 3. 系统错误报告(Error Log)的检查: 5. #mail 2. 常用命令: 3. 对发现的问题详细分析,结果报告给客户 1. IBM 小型机小型机机房要求: 2. 设备故障灯分类: 若有故障执行命令 软件故障检测命令: # errpt -d S -T PERM 若有故障执行命令 4. 1. h [] t []

6. 文件系统的检查: 命令: # df - %Used 为文件系统的使用率。所有文件系统的使用率不能大于 6.磁带机清洁的检查: 命令: #/usr/lpp/diagnostics/bin/utape -cd rmt0 -n 显示结果为磁带机使用的小时数, 若大于 72小时,则不论磁带机黄灯是否亮都应用清洁 带清洗。 #/usr/lpp/diagnostics/bin/utape -d rmt0 -n 7. 信系统的检测: 1. 网卡的状态 命令: #ifconfig -a 输出判断: en0: flags=e080863 inet netmask 0xffffff00 broadcast flags=e080863 inet netmask 0xffffff00 broadcast 2. 路由的检测 命令: #lsattr -El inet0 authm 65536 Authentication Methods True hostname h24 Host Name True gateway Gateway True route net,,0, Route True bootup_option no Serial Optical Network Interface True 主备网卡的flag 为UP 属正常。同时检查 ip 地址和netmask 是否正确。 80% 会提示是否需要 clean

小型机巡检报告

IBM小型机系统巡检 工 作 报 告 新疆深思计算机系统集成公司 二零零五年二月

客户名称:中国石化新疆分公司 服务地址: 联系人: 联系电话: 机器型号: 序列号: 谨对本次巡检工作予以证明:具体巡检工作内容见附件。 客户单位:新疆深思计算机系统集成公司客户代表:服务工程师: 日期:日期:

1.序列号:10-96607 2.主电源指示灯是否工作正常(常绿) 正常 3.各直流电源单元指示灯是否正常(常绿) 正常4.各直流电源单元风扇是否正常运转正常5.系统柜至IO柜是否连接正常正常 6.是否配置磁带库配置3590 磁带库各指示灯及面板显示是否正常正常 7.系统错误日志记录档案(系统命令:errpt ,errpt –aj ) errpt –dH : 无关键性报错 errpt –dS: 无 8.网络状态检测 与主机B是否能ping通 与主机B通迅正常 netstat –in en0 :10.171.2.12 en1:10.171.14.13 netstat –ir en0:xy02_boot en1:xy02_stb 9.检测各卡工作状态 Lsdev –Cc adapter 各卡均正常在活动状态。 记录difine的卡:无

10.检测并记录内存状态 Lsdev –Cc memory: Memo and L2chcheo 均正常。 11.检测各内存大小 Lsattr –El mem0 ... Mem0: 2048M L2cache0:8192K 12.检测逻辑盘个数及状态 Lsdev –Cc disk: 各hdisk均正常 13.检查磁带机、光驱及软驱的状态 Lsdev –Cc tape: rmt0 ---ibm 3590 正常。 Lsdev –Cc cdrom: cd0正常。 Lsdev –Cc diskette: fd0 正常。 14.检测CPU个数及状态 Lsdev –Cc processor: Proc0 -4 4cpu均正常。 15.检查Page space Lsps –a: 共2048MPS,其中使用率为1%. Lsps –s: 同上。 16.检查各VG状态及资源,记录相关参数及有无STALE的PP Lsvg –o: rootvg ,ora_home无stale状态的PP。

IBM小型机及存储巡检手册

IBM小型机及存储巡检手册

第一章硬件部分日常维护操作(耗时共20分钟左右)1 1.1检查机房环境(5分钟) (1) 1.2检查系统硬件情况(5分钟) (1) 1.3检查硬件错误报告(5分钟) (2) 1.4机器清洁(3分钟) (4) 1.5逻辑卷/硬盘检查(1分钟) (4) 1.6磁带机是否需要清洗(1分钟) (4) 1.7CPU 检查(1分钟) (4) 1.8通信(5分钟) (5) 1.9磁盘阵列 RAID 盘的状态(2分钟) (5) 第二章软件部分日产维护操作(耗时共20分钟左右)6 2.1软件错误报告(5分钟) (6) 2.2检查文件系统(2分钟) (6) 2.3内存交换区(2分钟) (6) 2.4系统性能(5分钟) (7) 2.5数据备份(2分钟) (7) 2.6数据是否已作保护(1分钟) (7) 2.7系统 DUMP 设置(1分钟) (7) 2.8用户登录记录检查(2分钟) (8) 2.9HACMP 测试(5分钟) (8) 2.10补丁程序(PTF)和微码(Microcode)检查(1分钟) (8) 2.11归档 VPD 信息(3分钟) (9) 第三章IBM HACMP 检查(耗时共15分钟左右)10 3.1HACMP 检查简表(5分钟) (10) 3.2HACMP 检查内容(2分钟) (11) 3.3HACMPpatch 安装原理和注意要点(2分钟) (11) 3.4对 HACMP 现有配置作 verify(2分钟) (12) 3.5检查共享文件系统和逻辑卷是否同步(2分钟) (13) 3.6HACMP 参数修改(1分钟) (15) 3.7检查网络参数(2分钟) (17)

相关文档