文档库 最新最全的文档下载
当前位置:文档库 › hp9000经验共享整理_硬件

hp9000经验共享整理_硬件

D、A、K class (2)

K460更换系统板的标准过程 (2)

K580主板更换心得 (3)

K机和Autoraid维修一例 (4)

A 机经常宕机后 (5)

L class (5)

L2000 System Board Replace Plan (5)

N class (6)

升级N/L的PDC firmware可能会丢失SCSI ID (6)

升级N4000gsp firmware (b.02.20)技巧 (6)

FC卡(A6795A)在L、N机上安装槽位的局限 (6)

N机增加内存的原则 (7)

Keystone (7)

也谈rp7410换根盘需要打patch (7)

一次RP7410扩容的全过程 (8)

在线更换RP7410 MP卡有风险 (8)

关于新装RP7410做完镜象后重启失败的故障排除 (9)

MP卡引起7420 Cell不加电 (9)

rp7410 core i/o 问题 (9)

rp7410 PCI IO Chassis出现问题 (10)

RP7410 更换CELL 板 (10)

更换Cell板后还应注意时间的设置 (12)

光纤卡松动造成主机不启动 (13)

Mattron (13)

rp8400 MP故障—死机,不能启动 (13)

RP8400 Firmware/ Cell Board Upgrade Guide (15)

升级RP8400和RP7410的cell board firmware的一点经验 (15)

Partition系统MP更换“红宝书” (18)

8420换cell板 (19)

RP系列更换CELL和升级FIRMWARE的几点注意 (19)

RP84XX中从盘不能启动的一个案例 (19)

Superdome (20)

superdome的64路扩容 (20)

superdome 扩容cell板的注意事项 (20)

Npartition (21)

创建npar过程 (21)

Vpartition (22)

Others (22)

replace FC Switch (22)

说说异步IO (24)

系统开关及PDC介绍 (26)

灰尘过多导致超温一例 (28)

安装COMMAND VIEW一例 (28)

电源供应不足导致rp8400无法启动 (29)

在PM时如何及时检测内存问题 (32)

各种线缆线序 (32)

更换光纤设备使用fcmsutil修改操作 (35)

奇怪的console (36)

console的键盘没有响应的处理 (36)

远程reset GSP (36)

磁带机默认路径问题 (36)

HP9000主机配备显卡,操作系统启动后自动在显示器输出CDE界面 (37)

机器重启的区别 (37)

HPMC和LPMC (38)

换Scsi注意事宜 (38)

主机和存储、网络性能分析工具汇总 (39)

D、A、K class

K460更换系统板的标准过程

K460更换系统板的标准过程

2004年7月13日 17:12:46

--------------------------------------------------------------------------------

1.去掉主机电源。

2.拿下前面板。

3.把内存板,CPU0,1和硬盘笼子拔出一点但不需要拿下来。

4.在主机后面取下电源模块,I/O扩展板,Core I/O板和各种网卡和SCSI卡。

5.松开系统板上部的三个大螺钉,即可拿出系统板。

6.在把新的系统板装上之前需要做三件事情:

A:检查新的系统板上的CPU主频跳线是否和原来的系统板一致

B:把原来系统板上的U30芯片(PAL)拔下来插到新的系统板上(KX70不需要做此步操作)

C:如果旧的系统板上有晶振芯片XY1,需要把晶振移到新的系统板上

7.装上新的系统板,然后装上各种I/O,CPU,内存等部件,但此时要注意一个原则,因为K360和K460的系统板是通用的,缺省的系统板是K360的,所以安装

I/O和CPU时要最小化,既只安装一个CPU和Core I/O即可,不能安装别的I/O 卡,否则可能由于K360和K460支持的I/O的槽位数量和CPU数量的不同而导致主机不能完成正常的加电自检过程。(这个过程同样使用于K380与K580)

8.主机加电到BCH,然后使用有ss_config磁带或者光盘启动系统到ISL。

9.在ISL中执行ss_config,如下:

ISL>ss_config

系统会提示一个LockWord:XXXXXXXXXX联系RC得到SS_KEY,然后输入就可以进入。

10.在ss_config中更改Modelstring为9000/889/K460,更改swip时系统会提示你输入产品号和序列号(主机的)

11.在ss_config提示符下使用display命令检查你配置的没有问题,然后使用save 保存你的修改,然后使用quit命令退到ISL下。

12.在ISL中reset系统硬件,在硬件自检开始后关闭主机电源,然后再装好没有安装的CPU和I/O。

13.然后重新加电,这时主机就能认到所有的CPU和I/O。

K580主板更换心得

更换k机主板真是一个又脏又累的活,且不谈电源模块有如何难拔出,最让人郁闷的是,在费尽九牛二虎之力将新主板换上后,主机无法通过自检。察看液晶屏所显示的信息发现主机在反复自检cpu#2 和cpu#5。难道是cpu没插紧?于是我又把所有得cpu模块重新插拔,然后再次启动主机,心想:“这次应该没问题了吧“。但谁知主机又停在了自检阶段,而这次主机是在反复自检cpu# 3和cpu#5。“my god!为什么会这样?cpu我都是按顺序插的,U30的PAL chip我也换上了。”无奈之下,向RC求救。但RC给出的建议是再重新插拔CPU。于是在Rc的建议的指导下,结合自己的主观判断,决定采用最小化系统这一土方法来给主机进行治疗。

首先,将主机后面的4个CPU(#2-#5)拔掉,然后再拔去memory carrier中的六根内存。最终让主机在只剩下2根内存,2个CPU,一块CORE I/O及光纤模块的情况下启动。果然比之前启动快多了,但不幸的是,主机再次hang在自检阶段,而这次液晶屏所显示的信息是“FLT 7500 memory”,难道是内存有问题?于是,我将这两根内存拔下来,换上其他六根内存并重启主机。而这次主机又hang在了自检阶段,通过察看液晶屏发现主机在反复自检cpu#0和cpu#1。情急之下,将cpu#0 和cpu#1的位置调换了一下,做最后一次尝试并重启主机。奇迹发生了,主机顺利的通过了自检并进入了十秒中断阶段。终于看到了胜利的曙光!此时我将ECU光盘插入光驱中,并从光盘上boot,但主机又报错说“系统无法启动,请察看系统警告信息”。于是,通过察看Information 中的Warning信息发现,由于新主板是K380的,不支持拥有4 slot的HSC I/O,所以无法启动。明白人一看就知是主板没刷新,modelstring没更改的缘故。因此为了能够通过从ECU光盘启动来刷新主板,我不得不将光纤模块拔下,并再次重启主机。这次主机果然让我顺利的从ECU光盘启动,接着就是ISL>ss_config 并call Rc,终于成功刷新主板。最后,再将拔下的4个CPU及光纤模块和内存全部插上,重启主机。YEAH!终于成功了,主机没有报任何错,只是启动时间较长而已。

详细的操作步骤:

1、首先确认用户报修的主机序列号和产品号,对I/O线缆作必要的标签,询问用户是否做过系统备份。

2、用dd if=/ss299lif.bin of=/dev/rmt/om bs=2k做一个可引导的磁带,目的是用它引导起来后在isl模式下执行ss_config命令。(因为k机的ss_config是属于隐藏的命令,需要Onsite工程师用ECU光盘或做一个磁带引导后使用。其中ss299lif.bin这个文件是ss_config命令的可执行文件。

3、shutdown -hy 0关闭系统。去掉主机电源。

4、拿下前面板,从左至右依次是memorry carried、PM CARD、CPU SLOT、DVD&TAPE SLOT,按顺序依次拔出,但不用完全抽出,只需确认没有接到接口处就可以了。(一定要注意cpu 的顺序)

5、在主机后面,依次拔下SCSI卡,CORE I/O卡,电源模块,还有挡片,总之我们是要从后面拿systerm board,所以应把它们全都取下来,一定记得第一步做好标签,尤其是涉及到I/O的卡。

6、完成第六步以后,我们会看到在systerm board上方有三个大螺丝,loosen them 就可以把failed的板子拿下来了。

7、注意要看新旧板子有什么区别,看有没有跳线要设置,并将芯片(U30)从旧的板子上挪到新的systerm board;新板子通常会有一些挡片,我们应该注意和被替换的板子的对比,细心检查后方可让新的systerm board上任!

8、固定好新的板子后,将所有被拆下来的部件复位。

9、主机加电后,进入BCH,然后用做好的磁带或者是ECU光盘引导启动,选择交互模式,进入isl>提示符。

10、isl>ss_config

系统提示一个Lock Word:**********

这个时候需要我们onsite工程师联系rc,取得password后输入即可

11、ss->display

发现model string (hp ux):????/???

sw_id:?????????

sw_cap:0x??

ss->swcap

选择0 hpux

ss->swid

系统提示输入主机的序列号:********

产品号:******

ss->modelstr

选择0 hpux

ss->save

ss->display察看信息是否更改

ss->exit

12、isl>reset重启确认系统正常启动,察看日志dmesg,syslog.log。OK,大功告

K机和Autoraid维修一例

2004年8月27日 17:55:00

--------------------------------------------------------------------------------

客户K机连Autoraid,报修症状

arrarraydsp -i show :

no ARMServer or initializing,访问不到autoraid

rc诊断时,ioscan 能够看到阵列上的硬盘,分析hpmc,判断core io板错误,建议换板

我到达现场时,客户已经把主机重新启动过,这时发现

ioscan也无法看到阵列上的lun,并且会Hung在那;dmesg 看到起机时configure fibre chanel报错:

excessive error from I/O subsystem. I/O error entrieds will be lost until cause of excessive error logging is corrected...

检查K机后部的连线,autoraid接主机没有连在core io上,sigh,core io 板白带了!检查阵列,前面板console show : testing

阵列两controller LED长亮,一块硬盘灯长亮

判断阵列在访问该盘时hung住了

拔出controller Y后,阵列开始initializ,接着阵列状态

ready,插回controller Y,阵列初始化后状态ready

主机ioscan看到部分lun,重新启动主机后,所有lun都可以看到了,arraydsp 也可以用了

检查阵列firmware,HP56,版本较低,判断故障与此有关

升级firmware版本后ok

A 机经常宕机后

2004年7月27日 10:58:45

--------------------------------------------------------------------------------

现场有四台A class机器分别在两机柜顶部,其中一台每过十几天就会宕机,看报错信息就是温度过高。可是其他三台机器并无此现象,客户认为该机器有硬件问题。可是检查结果CPU、硅胶和散热片连接正常并无硬件问题!最后将问题解决集中在提高CPU风扇的转速,加快散热。将CPU风扇加多两个Controller加快风速,问题解决!

这本来就是一个SeviceNotes,有一批A机只要报FAN0(cpu上的fan,用GSP的ps看),肯定就是这个原因。

没有smart controller就赶紧加。如果加过的机器还报这种错,就提个CPU换上(风扇、CPU、smart controller是合在一起的一个备件)

L class

L2000 System Board Replace Plan

1、PDC firmware: 40.48

Patch: PHSS_22655

2、SW1 set 440MHz

3、ss_update -> S/N

P/N

Model

N class

升级N/L的PDC firmware可能会丢失SCSI ID

2004年8月17日 16:38:33

--------------------------------------------------------------------------------

在多次的实践中发现,升级N、L的PDC firmware时(尤其是offline),有可能造成SCSI 设定恢复默认值。如果双机通过SCSI卡共享设备,则有可能造成SCSI ID 冲突。因此,升级PDC firmware后一定要注意在BCH里用SCSI命令进行修改

升级N4000gsp firmware (b.02.20)技巧

2004年7月29日 14:49:52

--------------------------------------------------------------------------------

在N4000的PM过程中,升级gsp的firmware是一个必要的过程,如果我们的版本在b.02.15以下,需要先升级到b.02.15,但是它往往占用我们大量的时间,原因是我们的升级过程中,往往不能一次完成。

在第一次升级到b.02.15以后,我们需要升级到b.02.20,在用xu升级的时候,经常看到的现象是升级没有反应,这是,我们往往选择给系统掉电,重新升级。其实,这是我们只要耐心的等待3分钟左右,升级就会继续进行,省了大量的时间!

xiaodong_hu

Re:升级N4000gsp firmware (b.02.20)技巧。

2004年8月6日 15:27:11

--------------------------------------------------------------------------------

记住升级完成后打patches

FC卡(A6795A)在L、N机上安装槽位的局限

2004年8月26日 19:31:55

--------------------------------------------------------------------------------

用户新购进了A6795A光纤卡,准备安装在原有的N4000机器上。硬件安装完成后,机器起动,自检通过,但在加载系统时发生HPMC。响应中心说不是每一个槽位都能安装。上网查到一个service notes。把结果简单说一下:

N机,只能插在偶数槽位。

L机,可以插在3,4,5,6,8,10,12槽位。

N机增加内存的原则

2004年11月30日 15:44:48

--------------------------------------------------------------------------------

N机的内存增加的时候,是把一个memory Carrier插满再去插另外一个Memory Carrier,而不是平衡的,对称的插入。这次去换内存的时候,没有注意到这一点,把内存对称的插入,经常会启动机器错误,或者启动过程中会报内存的错误。或者在MP卡上用sl显示Log的时候,会出现Pending Failure的错误。后来经过确认,把内存一个Carrier插满,再插入另一个就没有问题了。这个经验和大家共享。

Keystone

也谈rp7410换根盘需要打patch

坛子里有工程师发过rp7410换根盘需要打scsi patch.不单rp7410有这种情况,rp8400也存在这个问题.在线更换mirror盘发现硬盘认不到,无法做pvcreate.

需要做SN A6752A-21.

When an internal disk is replaced on an rp8400/Keystone or rp7410/Matterhorn system, the replacement disk does not spin-up when inserted into the system. The internal disk will spin-up if the cabinet is powered off/on or if the HPUX operating system is rebooted.

The internal disks for both systems have hot-plug functionality and do NOT have hot-swap functionality. Information is provided below to assist understanding the difference between hot-plug and hot-swap:

Hot-Swap means you can remove a drive and replace it with another drive without significant interruption to the system. In case of a mirrored disk environment, the system should re-sync with the new drive to re-establish the mirrored pair WITHOUT any user intervention. The system performance may be degraded until the drive is replaced and the data is spread across the new drive, but again, there is no significant interruption to service.

Hot-Plug typically means that you can add a new disk without removing power, but you cannot remove the disk without stopping any activity on this device. In other words the device needs to be in a "quiet state" before it is removed. In the case of a mirrored disk environment the system WILL NOT re-sync with the new drive until several manual LVM commands are performed.

Both hot-swap and hot-plug devices can be removed and installed without removing power. However it is important not to interpret hot-plug as having hot-swap capability.

解决问题需要打patch

PHKL_28096.

一次RP7410扩容的全过程

用户配置:

RP7410(4*CPU+3G*MEM)*2+VA7410*2

工作:

在两台RP7410上个增加一个CELL板(4*CPU+2GB*MEM)

过程:

1.把所有的CPU和内存条按照需求插到CELL板上,并检查

CELL板上的CPU时钟跳线。

注意:HP RP7410如果CPU是750MHZ的CPU而你把CELL

上的时钟跳线跳为875MHZ,CELL板加到主机上也

能正常使用且不报错,而且在BCH是看到的CPU频率

也为875MHZ。(也许真可以超频使用)。

2.把CELL板安装到主机上并重新启动主机到OS完成后。使用

parstatus 查看所添加的CPU应该不属于任何一个

partion,于是再增加CELL板到原来的Pration中。

例如在此次升级中把CELL 0加到partion0中:

#parmodify -p0 -a0:base:y:ri

3.重新启动更改过的Partion。

#shutdown -ry 0

也可以先启动的BIB模式确认CELL板已经添加完成在在GSP

的CM菜单中使用rs命令重新启动主机。

4.检查新的CELL板的FW是否和原来的一致,不一致需要升级FW

方法为使用GSP的CM菜单中的fw和osp两条命令。

注意升级FW时要把CELL板加电到BIB模式去做,而且在升级

时要注意有一些FW的升级会一起CELL板重新自检,所以一

定要想好先升那些,后生那些。在此次升级先使用了FW升级

了CELL板的PDC,然后使用OSP升级了DRAIN

5.再启动主机,一切OK。

注意帮助用户更改内核参数SHMMAX和增加SWAP区

在线更换RP7410 MP卡有风险

接了一个CASE,换RP7410 MP卡上的电池。

看RCE写的ACTION PLAN,要求我关机更换,觉得很奇怪。因为印象中,以前在线更换过MP卡。又仔

细看了一遍手册,手册上确实写着是可以热插拔的(Service Guide hp rp7405/rp7410 Servers Third Edition,Revision 1 141页)。

于是给RCE打电话。RCE说,前阵子有兄弟碰到过,RESET RP7410 的MP卡,结果整台主机重启了。

所以为保险起见,最好还是离线做。

到用户现场后,因为跟用户很熟,又从用户那里了解到问题主机是一台备用机,基本没什么应用。

所以跟用户商量后,决定还是在线更换,就当成是做一个实验。

在线拔出MP卡,换好电池,插回。接上CONSOLE,没反应。从其他主机PING,不通。主机HANG了!(此时从灯的状态上来看MP卡是正常的)

所以警告各位仍以为MP卡可以在线更换的兄弟们,下次再碰到这种CASE,还是跟用户约一下停机

时间吧。

系统启动阶段的操作可用下述流程图来概括:

关于新装RP7410做完镜象后重启失败的故障排除

在华为生产中心安装调试RP7410时,曾多次发生做完镜象后重启,在经过十秒中断后,进入系统引导时,RP7410会亮FAULT灯,导致重启失败,并产生HPMC。在GSP下检查LOG发现其中有ERR_CPU_BOARD的报错,多次重启机器,都是FAULT灯亮而失败。

解决办法

方法一:重新插拔PCI board。

1、拆开RP7410背板和侧板;

2、卸下侧板后,将PCI board旁边的固定架上方有四颗螺丝松开,即可卸下固定板;

3、注意要将PCI board上的Core I/O卡、网卡、光纤卡或SCSI卡等PCI卡做好位置记号拔出,并将PCI board上的连线也做好记号拔开;

4、然后,抓住塑料把柄向外拖PCI board;

5、重新插拔后,按拆开顺序重新装回PCI卡;

6、重启机器,经过一段时间烤机问题一般都会解决。

方法二:如果经过方法一的步骤还是不行,则需要拨打800调拨新的PCI board(备件号:A6752-69014)去更换了。当然,还是需要RC的诊断确认。

故障分析

可能是某批次的RP7410的PCI board的接触不是很好,安装也有些不到位,所以需要重新安装,如果重新安装还是不行,就只能是怀疑PCI board坏了。

MP卡引起7420 Cell不加电

昨天碰到这样一个怪机器:客户报修一台7420 Cell-1不加电。RC开了一个Cell让我们到现场诊断一下。联上客户的机器证实确实无法加电(在MP卡里手动给Cell-1加电)正准备换Cell,突然发现Cell-1对应的MP-Master亮黄灯!对调了一下MP卡黄灯不闪了,在对调回来也不闪了,加电进MP都正常了,不过用户分了两个Partition,对调MP卡后Partition1丢失,重新建立Partition并重启两次,检查Log没有异常。再仔细观察机器,发现用户只接了两路电源,虽然这样也可以启动但要设定与PowerSuply的对应关系,拆下前面板果然有一个PS闪黄灯,在PM卡里设定AC输入为A0、B0,PS黄灯灭了!再重起,没有问题!关于故障的具体原因我还没有明确的答案,也希望DX们指点

rp7410 core i/o 问题

用户的一台rp7410重起后无法引导至操作系统,停留在BCH,尝试seach 可引导路径时发现如下报错:

ERROR: PDH NVRAM and I/O card NVRAM SCSI parameters do not match for path x/x/x/x/x

Search aborted. The SCSI parameters for this card must be corrected from the BCH Service menu

经过查询资料发现一个SN描述此问题(详见附件),通过更改CORE I/O 的SCSI “Auto Term”参数为“UNKNOWN”,解决了此问题,正常找到了硬盘并引导正常

rp7410 PCI IO Chassis出现问题

2004年8月17日 16:43:27

--------------------------------------------------------------------------------

最近北京华为出现了两次同样的问题:

升级网卡(SCSI卡)时,主机插上新卡后就不能正常启动了。即便把新卡拔掉也无济于事。故障现象是IO chassis不能加电,两个PCI电源模块灯不亮。

经过测试,可以确认新卡没有问题,应该是主机原来就有问题,重新加电后就起不来了。

这两次最后都是更换了PCI IO chassis就搞定了,希望大家以后注意!

RP7410 更换CELL 板

2004年8月6日 18:55:52

--------------------------------------------------------------------------------

2004年7月29日,一用户的rp7410 cell板有问题(Cell 板HPMC照成主机crash),需要更换。以下是实施过程记录,权当流水帐。

1.查找目前相关firmware,并提前下载。下载地址:

https://www.wendangku.net/doc/a115097100.html,/~disk/firmware_information.htm

并查找是否有相关SN,A6093A-07A,不过该bug在升级到最新版本的firmware 后,已经被修补了。

到用户现场后,一看firmware的版本,是6.2的,但是目前的网上已经没有该版本的了(可能是不稳定已经被撤了),当前最新的是6.3版。

2.备份操作系统,收集相关信息后,停应用,停群集节点,shutdown主机,拔掉主机连接的电源。

3.确认所需更换的cell板:

4.开始更换cell板,RP7410的设计上比N4000好多了,拔插cell板不是很费事,不过需要注意的是:更换cell 板并不包括CPU和内存。所以在换cell板时,需要将CPU和内存取出并将其安装在新的cell板上,同时还要注意CPU的switch (在右上角),其跳线应与被更换cell板的设置一致。

5. Replace 好新的cell板,机器加电后,发现Bay 0上的网卡所有指示灯不亮,刚开始还以为该网卡是否有故障,查看两口cell板的firmware信息不一致:

P:CM> sysrev

Cabinet FPGA and Firmware revision report

System Backplane : GPM FM OSP

------- ------- -------

1.002 1.002 1.002

PCI Backplane : LPM HS

------- -------

1.002 1.000

LPM BOB DRAIN PDHC PDC

------- ------- ------- ------- -------

CELL 0 : 2.002 1.000 1.001 2.004 17.006

CELL 1 : 2.002 1.000 1.001 2.002 17.005

FPGA MP

------- -------

Master Core IO : 2.008 4.018

Slave Core IO : 0.000 0.000

由于更换了cell 板,如果两个Cell板的firmware不一致,在机器启动后其中的一

个Cell板并没有加入partition中,这时候应该用命令去查看是那个cell板没有加入。没有加入partition中的cell 板上的一些网卡没有加上电,其上的内存和CPU

都无法被系统认同。在VFP中肯定是有提示那个Cell板报错。

虚惊一场,接下来的事情就是升级firmware了。但是在网站上目前已经没有6.2板的firmware了,在和RC的确认下,直接把这两个Cell 板升级到6.3。

从6.3板的firmware的描述来看,修复了一下几个关键点:

1. PDC revision 17.008 contains the following fixes:

T he PDC 17.006 crash dump corruption issue has been resolved in PDC 17.008.

A Lower Bus Adapter reporting an HPMC occurred now correctly reports the failing cell board.

T he LanAddress command within the Service Menu of BCH would not recognize the

A6794A (Procurium LAN/SCSI) card in slot #1 of an rp7410/rp7405 system. This issue has been corrected.

2. MP revision 4.020 contains the following fixes:

R un LED on the syste m front panel no longer remains on after the system is shut down. 我想如果以后如果是Cell板HPMC且其firmware较低的话,是否可以考虑先将其firmware升级的当前较为稳定的版本,如果仍然是有问题的话,再考虑换Cell板。

更换Cell板后还应注意时间的设置

后来用户告诉我两台主机的时间不一致,不知到Service Note Number: A6093A-07A 上的RTC在6.3板里修复了没有,以下就是Service Note Number: A6093A-07A 的东东(建议大家在维修的时候查看一下相关产品的SN)

Real Time Clock (RTC):

As reported above under Situation when the core Cell Board of a Partition is

removed from the system for a period of time greater than approximately 3 minutes,

the RTC parameters are set to DEFAULT values. If the RTC values are not set to

the proper time, then the following will occur:

The HP-UX clock will not be correct.

You will not be able to enter the HP-ONLY DIAGNOSTIC PASSWORD. Therefore, the Real Time Clock settings MUST be set to the correct GMT Time BEFORE

rebooting to HP-UX after the Cell Board is reinserted into the system.

This is accomplished at the BCH Configuration Menu.

2.1) Time Help Screen Follows:

Configuration Menu: Enter command > he ti

---- TIME Help --------------------------------------------------------

TIME displays and sets the Real Time Clock in GMT.

TIme Display the Real Time Clock in GMT

TIme cn:yr:mo:dy:hr:mn:ss Set the Real Time Clock in GMT

cn century, 19-20

yr year, 0-99

mo month, 1-12

dy day of the month, 1-31

hr hour of the day, 0-23

mn minute, 0-59

ss second, 0-59

Dates through December 31, 23:59:59, 2069 are supported.

Example: Set time to July 4, 1976, 11:30:00 P.M. GMT.

TIME 19:76:07:04:23:30:00

2.2) Specific Example Follows:

CHECKING THE SETTING:

Configuration Menu: Enter command > ti

Thu Jan 1 00:15:06 GMT 1970 (19:70:01:01:00:15:06)

Please Note - Time shown is an example of a default value.

RESETTING THE RTC TO GMT:

Configuration Menu: Enter command > ti 20:02:07:03:13:41

Wed Jul 3 13:41:00 GMT 2002 (20:02:07:03:13:41:00)

Please NOTE Display is for example only. You will need to set the RTC

time to the specific current GMT.

- INSURE THE TIME IS IN GMT

光纤卡松动造成主机不启动

新安装两台RP7420,一台正常另一台却不能引导操作系统,互换CELL板,系统根盘,从光盘引导均不成功,最后将5块光纤卡拆出可正常启动,再将这些卡分批插回,系统正常启动.

这种现象还比较多,“到三个大数那里fault灯就亮了”,或者是CRASH,这种问题90%的可能都出在IO方面,要注意。

Mattron

rp8400 MP故障—死机,不能启动

一重要客户rp8400在正常使用时死机。重启时停到

System Console is on the Built-In Serial Interface

Daemon Startup command in stm to start it.

If the diaglogd daemon is active, use the logtool utility in stm to determine which I/O subsystem is logging excessive errors.

td: claimed Tachyon XL2 Fibre Channel Mass Storage card at 1/0/8/0/0

td: claimed Tachyon XL2 Fibre Channel Mass Storage card at 1/0/10/0/0

System Console is on the Built-In Serial Interface

可以看到,系统在自检完Built-In Console后就死住了。MP的界面使用正常。这种情况下,不论是-is和-lm 模式,还是用安装光盘都不能过这一步。最后确定是MP坏了。

后来又发现有server notes A6093A-30A验证了这样的MP故障。原因出在系统不能给MP卡集成的网口加载驱动程序。故障的确定看两点:

1。console的输出停在下面信息之后

System Console is on the Built-In Serial Interface

2。MP的activity log(不是error log,即sl里选a)

586 HPUX 0,0,0 0 0xf8e008001100cef2 0x000000000000cef2 START_2ND_LVL_IO_CONFIG

585 HPUX 0,0,0 0 0xf8e008001100cef0 0x000000000000cef0 MAIN_ENTERED

584 HPUX 0,0,0 0 0xf8e008001100f107 0x000000000000f107

583 HPUX 0,0,0 0 0xf8e008001100f106 0x000000000000f106

582 HPUX 0,0,0 0 0xf8e008001100f105 0x000000000000f105

581 HPUX 0,0,0 0 0xf8e008001100f104 0x000000000000f104

580 HPUX 0,0,0 0 0xf8e008001100f103 0x000000000000f103

579 HPUX 0,0,0 0 0xf8e008001100f102 0x000000000000f102

578 HPUX 0,0,0 0 0xf8e008001100f101 0x000000000000f101

577 HPUX 0,0,0 0 0xf8e008001100f200 0x000000000000f200

576 HPUX 0,0,0 0 0xf8e008001100f100 0x000000000000f100

575 HPUX 0,0,0 0 0xf8e008001100cee1 0x000000000000cee1 END_1ST_LVL_IO_CONFIG

574 HPUX 0,0,0 0 0xf8e008001100cee0 0x000000000000cee0 START_1ST_LVL_IO_CONFIG

最终的故障原因是MP上的网卡用的SSRAM芯片导致的。

解决办法:

用备件号为A6096-69201更换A6096-6xxxx的MP卡。可以用MP的df命令检查(选G - Management Processor)EDC版本。EDC版本是4302,或4302以上的是不存在这种潜在问题的。

在得出结论后,我们着手准备换MP。谁想到在换MP时,又出了大问题。现场工程师从另外一个未投入生产的好的rp8400上将MP拔下来插到的这台机器上。重启。成功!HP-UX启动时,那个曾经总也过不去的地方一下就过去了。可是当OS启动到要mount根卷的时候,突然又panic了。不论怎么起,-lm, -lq都是同样的错误。panic的错误是:

panic: all VFS_MOUNTROOTs failed: NEED DRIVERS ?????

经仔细检查,原来是两个MP的版本不一样。一个是A6096A,另一个是A7109A。两种MP主要的区别是

A7109A需要额外的驱动程序:igelan和c8xx。一个是网卡驱动,另一个是SCSI控制器的驱动。因为

A7109A支持rp8420等机型,所以它和A6096A是完全不一样的。可想,OS中的SCSI驱动不对,它当然不能正常通过没有驱动的SCSI卡访问根盘了。

再更换了A6096A的MP后,系统终于可以启动了!

从这个case中,我们可以学到:

1。更换备件也要从最基本的地方入手——确认更换的备件号一致,或者有替代关系。

2。A7109A的MP在外部多一个MP SEL的灯。可以由此区别MP版本。

3。A7109A的MP板上有个开关,对于不同的机型,开关设置也不同。

Replace the MP card with the same PART NUMBER

Remark:

Before MP card replacement, please check the defective MP card part number carefully

There are tow types MP card currently for rp8400

The first type MP card part number is A6096-69201, some words print on it like "A6093-84005 Rev A"

The second type MP card part number is A7109-69001, some words print on it like "A7109-84001 Rev C"

* MP card replaced with a different part number parts will cause system panic

* In a rp8400, the master MP card and slave MP card must be same version.

* Rp8400 installed with MP card A7109-69001 can not boot up without OS drive "C8xx" and "IGELAN"

If you want to upgrade rp8400 MP card from A6096-xxxxx to A7109-xxxxx, you must install OS drive "C8xx" and "IGELAN" first.

RP8400 Firmware/ Cell Board Upgrade Guide

升级RP8400和RP7410的cell board firmware的一点经验

2004年7月28日 16:01:40

--------------------------------------------------------------------------------

至于前面需要升级的MP、PDC、OPS等,恕不赘述了,以下内容就说说Update FPGAs 的一点注意事项。

Updating the remaining FPGAs.

MP:CM> osp

*********************************************************************

***** *****

***** Onboard Scan Programming Utility *****

***** *****

***** (C) Copyright 2001 Hewlett-Packard Company *****

***** All Rights Reserved *****

***** *****

***** THIS PROGRAM IS NOT LICENSED TO CUSTOMERS *****

***** *****

***** This program is intended for use by trained HP support *****

***** personnel only. HP shall not be liable for any damages *****

***** resulting from unauthorized use of this program. This *****

***** program is the property of HP. *****

***** *****

***** Version 1.01 *****

***** *****

********************************************************************* Flash Current

Number Cabinet Name Partition Handle FPGA Version

------ --------- -------- --------- -------- --------------

1 0 CIO 0 0 2048 1.001

2 0 CIO 1 1 2049 1.001

3 0 GPM 0 218

4 1.002

4 0 FM 0 2192 1.002

5 0 OSP 0 2232 1.002

6 0 Pci HS 0 2328 1.000

7 0 PciLPM 0 2352 1.002

8 0 Bob 0 0 2464 1.000

9 0 Drain0 0 2472 1.000

10 0 LPM 0 0 2480 2.002

11 0 Bob 1 1 2465 1.000

12 0 Drain1 1 2473 1.000

13 0 LPM 1 1 2481 2.002

14 0 Bob 3 1 2467 1.000

15 0 Drain3 1 2475 1.000

16 0 LPM 3 1 2483 2.002

Enter the Entities to be upgraded (Ex: 2,4):1,2,3,4,6,7,9,10,11,12,14,15,16

Enter your user name: user name

Enter your user password:

Enter the ip address where the FPGA image file can be found: FTP server IP

Enter the path where the file(s) can be found: /home/fw6

Enter System Backplane Global Power Monitor FPGA image filename: gpm_1.2.0b.osp Enter System Backplane Fan Monitor FPGA image filename: sysfm_1.2.0b.osp

Enter PCI Backplane Local Power Monitor FPGA image filename: pcilpm_1.2.0b.osp Enter PCI Backplane Hot Swap FPGA image filename: pcihs_1.0.0b.osp

Enter Cell Board Local Power Monitor FPGA image filename: celllpm_2.2.0b.osp Enter Drain (PDH riser) FPGA image filename: drain_1.1.0b.osp

Enter Core IO FPGA image filename: cio_2.8.0b.osp

Are you sure that you want to continue(Y/N): y

DO NOT RESET the server unless you have received confirmation that the FPGAs were updated successfully. Re-perform the firmware update procedure immediately for all entities failing to update successfully.

Step 14 Following FPGAs update, shutdown 48V power to the machine by the front power switch or the PE command:

MP:CM> pe

This command controls power enable to a hardware device.

T - Cabinet

C - Cell

P - IO Chassis

Select Device: t

The power state is ON for Cabinet 0.

In what state do you want the power? (ON/OFF) off

MP:CM>

Then power cycle the AC power supply for 30 seconds.

Step 15 Restore power to 48V standby by the front power switch or the PE command and verify the OSP FPGA version.

MP:CM> pe

This command controls power enable to a hardware device.

T - Cabinet

C - Cell

P - IO Chassis

Select Device: t

The power state is OFF for Cabinet 0.

In what state do you want the power? (ON/OFF) on

MP:CM>sysrev

Cabinet FPGA and Firmware revision report

System Backplane : GPM FM OSP

------- ------- -------

1.002 1.002 1.002

PCI Backplane : LPM HS

------- -------

1.002 1.000

LPM BOB DRAIN PDHC PDC

------- ------- ------- ------- -------

CELL 0 : 2.002 1.000 1.001 2.002 17.005

CELL 1 : 2.002 1.000 1.001 2.002 17.005

CELL 2 : 0.000 0.000 0.000 0.000 0.000

CELL 3 : 2.002 1.000 1.001 2.002 17.005

FPGA MP

------- -------

Master Core IO : 2.008 4.013

Slave Core IO : 2.008 4.013

Step 16 Reset the partition(s) using the RS command:

MP:CM> rs

This command resets the selected partition.

WARNING: Execution of this command irrecoverably halts all system processing and I/O activity and restarts the selected partition.

Part# Name

----- ----

0) Partition 0

1) Partition 1

Select a partition number: 0 (or 1)

Step 17 You may now turn autoboot and autosearch back on at the BCH Configuration menu by setting the Path Flags to the proper settings or use the HP-UX command:

# setboot –b on

# setboot –s on

其中需要注意的有两点:

1、Enter Core IO FPGA image filename时需要注意,RP8400的 filename 应该为

cio_2.8.0b.osp,RP7410的 filename 应该为 matcio_2.8.0b.osp 。否则,FPGA的升级将会失败,而失败后不能Reset cell board,只需重新执行一次升级。

2、无论是升级MP、PDC、OPS还是FPGAs等时,只有在显示升级成功完成之后,方能重启,否则,将会导致升级失败,而且需要更换相应升级失败的硬件备件,十分麻烦。

3、当所有的升级都已经确认完成后,需要断电重启机器,因为此时在MP执行RS 命令时,在VFP中一直会显示 "cellboard have been joined partition" ,意味着使用RS命令也无法重启CELL BOARD。因此需要将主机电源线拔出完全断电后,再重新插回接通电源,然后重新启动机器,自检通过,所有升级才告完成。注意这一点在相关的升级手册或指导中是没有说明的。

Partition系统MP更换“红宝书”

1. 你有正确的备件号吗?

rp84x0 and rx8620

A6096-69201 old MP for rp8400 without SEU

A7109-69001 new MP for rp8400, rp8420, rx8620 and all boxes with SEU.

新旧MP不能混用.

新MP上的S3开关对rp8400必须设置ON/ON;对其他的机型,如rp8420和rx8620设为

OFF/OFF。

2. 千万不要同时更换Cell和MP。你难道不知道为什么吗?那就再看一般书。

3. 换MP前shutdown OS。

4. 换MP前,将MP上的电池至少放电20秒。以免MP本身带有其他机器的complex profile。

5. 换MP时,要将+48v电并将Cell powered(但是不要运行OS)。否则complex profile无法从cell中读出。也就会遇到co、cp等命令报错。

6. 换MP后,要等到它自检完,且把complex profiles恢复。

7. 对于rp7420/8420或rx7620/8620换master MP,你必须:

. Move the console cable to the original Slave MP

. Use the MP:CM> XD command option 9 to recover from the failover

. Move the Console cable to the original Master MP

When you have to move the master with the XD command, the patition names will be reset to the default names. You have to use

#parmodify -p x -P orgiginal_partition_name to put back the original names.

8. 更换后检查MP的firmware。

If FPGA (CIO)firmware FW has to be changed and no complete system downtime is possible, it's enough to remove the Core I/O ( MP )after the update for 30 seconds instead of powercycling the complete system as recommended in the FW Release Notes.

9. 可以用LS命令查看MP的IP地址。

评议:

换MP前,将MP上的电池至少放电20秒

新备件还是旧备件啊?

当然是新备件。是为了避免新备件上有其他的complex profile,导致更换后出现cell和MP上的complex profile冲突。如果旧备件还需要插回去,在complex profile不变的前提下,无需放电。这一点和VA控制器时的电池工作原理是相通的呀。

8420换cell板

1、RP8420 CELL BOARD备件分为A6913-69106,CPU为900M;A6913-69107,CPU为1G。CPU频率不同提的备件也不同。

2、RP8420 CELL BOARD备件上的CPU是四个,满配的。如果用户CELL BOARD上的CPU不到四个,多出的CPU要拆下放到旧备件上一块寄回,否则用户便宜占大了!

3、RP8420 CELL BOARD备件上无内存,要把用户原CELL BOARD上的内存条拆下插到新备件上。

4、开备件时会同时开一个工具,类似TOX。但用TOX就全办了,工具就用不到了。

5、一定要看新CELL BOARD的FIRMWARE,保证与原有CELL BOARD一致,否则PARTITION中的新CELL BOARD状态为inactive,用户的机器资源被无形中大量浪费了。

RP系列更换CELL和升级FIRMWARE的几点注意

1)我们在做RP7405/RP7410/RP8400等主机的CELL和CPU的更换后,经常要做FIRMWARE的升级,一般可用MP下的FW

总结:虽然都是小问题,但如果不注意都会引起很大问题,ONSITE时一定谨慎仔细.

命令,从ITRC上可以下到目前最新是名为PF_CKEYMAT0603,版本为6.03.但有一点要注意,就是此类主机都有可能装有VPars软件,在升级FIRMWARE之前,一定要确认此主机是否装有VPars软件,并且软件版本为A.02.02,如果装有此版本的软件,一定不能再升级FIRMWARE6.0以上的版本.(切记!)否则会引起virtual partition不能引导启动.

最好的办法是将VPars软件先升级到版本A.02.03.

2)CELL板有关于CPU的跳线,更换CELL一定注意要更改.(一般改成和原CELL一样就可,必要时查看手册)

3)升级PDHC完成后要在MP下执行RU命令,选择H,再选择CELL,是针对SINC进行RESET.此步骤容易忽视,执行完后可用SYSREV命令检验升级后的版本.

RP84XX中从盘不能启动的一个案例

2004年7月27日 3:31:03

--------------------------------------------------------------------------------

在最近的一次安装中遇到一个问题,在RP84XX中做完根盘镜像后,从盘不能正常启动,报一个SCSI的错误。检查配置的过程,无错。重新配置镜像,还是报同样的错误。于是在BCH中SEA 设备,发现0/X/X/X/都正常,但SEA到

1/X/X/X/X时报SCSI ERROR, 于是查看SCSI 状况(SER--SCSI),发现1/X/X/X/X这条BUS的“Auto Term ”和"SCSI RATE"都是UNKNOWN,分别设置其为AUTO 和ULTRE,重新SEA,一切OK,再无SCSI ERROR,再从从盘BOOT也正常了。因为同个时期有安装多台RP84XX,就这一台有这个问题,看来可能是偶然情况,也可能和工场预安装时没仔细检查有关,所以建议大家在安装RP74XX和RP84XX 时多多认真检查,避免产生同样的问题。

Superdome

superdome的64路扩容

上周做了一个SD的64路扩容,硬件的安装跟普通的SD差不多,主要就是两个cabinet之间的cable连接,步骤如下:

1.Install the clock cable.

a. Locate the clock cable ports at the back of the Cabinet 1. There should be a coiled clock cable connected on the backplane of Cabinet 1 at connector J28.

b. Uncoil the clock cable and connect it to the RBP connector on the Cabinet 0 UGUY board

2.Install the Universal Serial Bus (USB) cable

The USB ports are located on the top edge on the Utilities Connector Board (UCB). Make the connection from Cabinet 0 to Cabinet 1.

The connectors on the USB cable are marked UPSTREAM and DOWNSTREAM.

a. Attach the Upstream connector to the connector on the far left on Cabinet 1.

b. Attach the Downstream connector to the second connector from the left on Cabinet 0.

https://www.wendangku.net/doc/a115097100.html,ing a T10 driver, remove the U-turn assemblies on both sides

4.Install the flex cables.

Each cable is keyed. Attach each cable so that the guide pins on the backplane connector mates properly with the cable connector. The connector with no holes fits on the connector marked N on the backplane.

Using a T10 driver, install the six 6-inch cables between the two cabinets. Do not overtighten. Carefully install the two 8-inch cables over the top and the bottom 6-inch cables.

最后提醒一下flex cable的线固定一定要注意不要过紧。

superdome 扩容cell板的注意事项

1.增加cell板之前,要先确认主机当前cell板的firmware,最好带上superdome最新的firmware。

2.只有firmware一样的cell板才能加在同一个partition。

3.增加cell板和修改partition后,先在十秒中断的in里确认内存和cpu是否正常。

4.正常进入系统后,用icod_stat检查总的cpu个数和当前active的个数是否一致。

5.如果总的cpu个数和当前active的个数不一致,则必须执行以下命令:

# >icod_modify -c csf:safe@https://www.wendangku.net/doc/a115097100.html,:138********[其中(联系人:mail:电话)最好就留客户信息]

# > icod_modify -a 2 :csf:csf:safe@https://www.wendangku.net/doc/a115097100.html,:138********(数字2是需要激活的cpu个数)

6.然后再用icod_stat检查总的cpu个数和当前active的个数是否一致。

# > icod_stat

Version: 4.01

Contract type: iCOD-purchase

License applied: yes

……………..

Contact name: csf

Contact e-mail: safe@https://www.wendangku.net/doc/a115097100.html,

Contact phone: 138********

Total processors: 16

Active processors: 16

Inactive processors that can be activated: 0

Inactive processors that cannot be activated: 0

Deconfigured processors: 0

Requested active processors: 16

相关文档
相关文档 最新文档