文档库 最新最全的文档下载
当前位置:文档库 › 阿尔卡特SDH常见告警及处理方法

阿尔卡特SDH常见告警及处理方法

阿尔卡特SDH故障

2.1 RUP, RUM, ICP类告警处理

告警名称或故障现象:Replaceable Unit Problem机盘故障; Replaceable Unit Missed机盘不在位; Internal Communication Problem 内部通信(控制信号)故障,相应的故障机盘报故障。

告警产生原因:

1.原因1 RUM还可能是网管配置了板,但实际配插板

2.原因2 机盘硬件故障

3.原因3 ICP有可能是其它盘引起,如1660的矩阵、主控;1662的SYNTH16;

1642的MB板

告警处理方法:

1.原因1 对于RUM首先核实是否现场每插板,如没插板可在网管去配置(对于

有配置电路或作为时钟源的,需先删除这些配置),当然现场每插板,由配置了电路或时钟源需仔细核实是否是垃圾数据在删。

2.原因2 替换相应的故障盘

3.对于ICP告警如替换故障盘后仍不消失,则需考虑可能是其它的矩阵、主控、

SYNTH16、MB盘等引起。可先对这些怀疑的板做插拔(注意对业务和监控的影响,一般主控盘插拔只影响监控;矩阵和SYNTH16均有保护,如无异常状态或第二处故障,插拔备用也不影响业务(要插拔当前的主用矩阵需先切换成备用角色再插拔,切换后等15分钟让它同步完再操作)),定位到故障板后替换故障板。

2.2 TD, URU, TF告警

告警名称或故障现象:设备光口或端口报TD(Transmitter Degraded), URU (Underlying Resource Unavailable), TF(Transmitter Failure)告警。

告警产生原因:

1.原因1 如有光模块的机盘,则可能是故障

2.原因2 机盘故障

告警处理方法:

1.原因1 替换光模块

2.原因2 替换机盘

2.3 LOS, LOF告警处理

告警名称或故障现象:LOS(Loss of signal;LOF(Loss Of Frame);MS-AIS;MS-RDI告警

告警产生原因:

1.原因1 光缆故障

2.原因2 对端设备停电或吊死(主要是接入设备)

3.原因3 显现硬件故障,相应光板报RUP、RUM、ICP、URU、TD、TF等告警

4.原因4 隐性硬件故障

5.原因5 光模块吊死

告警处理方法:

1.原因1 对光及OTDR测试等排查光路故障,清除光缆故障(具体见光缆故障

处理)

2.原因2 现场开电或环MB板

3.原因3 显现硬件故障请替换相应的故障板

4.原因4 当光路对光正常,无明显的硬件故障后,则可能是隐性硬件故障。

处理方法如下:首先两边对应的端口做尾纤自环,看哪个光口自环后故障出现,则替换那块光板。做光口自环需注意如下问题:1:注意光功率,根据不同的光盘添加不同的衰减器,避免过载,光口参数参见 \\10.244.9.52\网管组\学习资料(GPON PTN)\阿尔卡特培训资料/<阿卡光口参数.xls>;2:自环前测一下光功率,避免因故障尾纤、接头没插好等导致的误判断;3:对于涉及MS-SPRING环保护的光口,尾纤自环前必须对对于的光口做人工“force swith”操作,自环解除后必须清除强制倒换!这是因为“force swith”的级别大于“los of signal”,这样,自环后即使超过5分钟业务也不会倒回来,不会因此影响业务。

5.原因5,对于阿尔卡特编号为8DG开头(L64.2E)光盘,当出现LOS告警后

光模块可能吊死从而不发光,此时需现场插拔一下光模块。

2.4 光口EBER、DS告警处理

告警名称或故障现象:EBER(Excessive EBER 性能越限);DS(Degraded Signal 信号劣化),光口性能劣化。

告警产生原因:

1.原因1 光缆故障

2.原因2 隐性硬件故障

告警处理方法:

1.原因1 对光及OTDR测试等排查光路故障,清除光缆故障(具体见光缆故障

处理)

2.原因2 当光路对光正常,则可能是隐性硬件故障。处理方法如下:首先两

边对应的端口做尾纤自环,自环后查看光口性能,看那块光盘仍然有误码,则替换那块光板。做光口自环需注意如下问题:1:注意光功率,根据不同的光盘添加不同的衰减器,避免过载,光口参数参见 \\10.244.9.52\网管组\学习资料(GPON PTN)\阿尔卡特培训资料/<阿卡光口参数.xls>;2:自环前测一下光功率,避免因故障尾纤、接头没插好等导致的误判断;3:对于涉及MS-SPRING环保护的光口,尾纤自环前必须对对于的光口做人工“force swith”操作,自环解除后必须清除强制倒换!这是因为“force swith”的级别大于“los of signal”,这样,自环后即使超过5分钟业务也不会倒回来,不会因此影响业务。

2.5 CSF告警处理

告警名称或故障现象:CSF(Communication signal failure);

告警产生原因:

1.原因1 相应两端光口的LAPD配置不匹配或一边没配置

2.原因2 相应的光板上有LOS ,LOF, MS-RDI,MS-AIS,DS,EBER,RUP,RUM

等其他告警

3.原因3 1660主控板,1642 MB板,1662 6槽位的SYNTH16盘有故障

告警处理方法:

1.原因1 重新配置LAPD,配置原则是NETWORK必须与USER配对。

2.原因2 先处理其他故障以清除本告警。

3.原因3 插拔或重启相应的主控盘(一般都是报CSF告警网元的对端设备有

问题)或换主控板。

2.6 CPE告警处理

告警名称或故障现象:CPE(Communication Protocol Error 通信协议错误告警)

告警产生原因:

1.原因1 配置问题

2.原因2 硬件问题

告警处理方法:

1.原因1 对于出告警的光口属MSP1+1保护组的,一般均是保护组两边网元的

单、双向选项不一致,删除保护组重配即可。删保护组前,请核实主备用光口可用,否则可能影响业务。对于MSP-SPRING环保护光口,则升级给传输室处理。

2.原因2 如相应的光板有RUP,RUM等告警则先处理这些告警。否则升级给传

输室处理

2.7 inside failuer告警处理

告警名称或故障现象:inside failure 内部总线告警

告警产生原因:

1.原因1 设备时钟处于自由震荡状态,无有效的参考时钟

2.原因2 业务板故障

3.原因3 矩阵故障

告警处理方法:

1.原因1 此时备用矩阵到所有业务盘均是红线,需先处理时钟故障

2.原因2 如果某业务盘到主备矩阵均是红线,则首先替换该业务盘。如果只是

某块业务盘到一块矩阵有红线,也首先替换业务盘看故障是否消失。

3.原因3 如果某块矩阵到多个业务盘有红线,则替换该矩阵。

2.8 Cooling Fan Failure,HOUSE KEEPING告警处理

告警名称或故障现象:风扇告警告警

告警产生原因:

1.原因1 风扇硬件故障

2.原因2 风扇电源故障

告警处理方法:

1.原因1 替换故障风扇

2.原因2 查看风扇电源熔丝是否开启,清除电源故障。

2.9 Battery Failure,Fuse Failure告警处理

告警名称或故障现象:电源相关告警

告警产生原因:

1.原因1 外部电源故障

2.原因2 CONGI盘故障

告警处理方法:

1.原因1 处理外部电源故障,确保列头柜有电,架顶电源开关打上,无短路想

2.原因2 更换报障的CONGI盘。更换前先确认好报障CONGI板在架顶的对应电

源开关,确认无误后先断开对应的开光,观察设备应无停电现象,然后拆除CONGI板上的线缆,换上新板并重新接上电缆,然后开启架顶对应的开关。

2.10 Loss Of Timing Sources;Frequency Offset告警处理

告警名称或故障现象:时钟源丢失,时钟频偏告警

告警产生原因:

1.原因1 外部2M参考时钟无信号

2.原因2 外部线路参考时钟无信号

3.原因3 矩阵故障

4.原因4 1642 MB板故障

告警处理方法:

1.原因 1 检查2M时钟线是否有故障,如时钟线确认无误则可能是接时钟的

CONGI盘有故障,替换CONGI盘

2.原因2 检查线路时钟源光口有无LOS,LOF等告警,如有这些告警先处理;

如无告警且光信号正常,则检查对端设备有没有发送时钟。

3.原因3 如怀疑是矩阵盘问题,升级给传输室处理

4.原因4 对于1642,排除原因2后可先删除时钟配置并重新配置,查看告警

是否消失,如不消失则需替换MB板。

2.11 Resource Isolation告警处理

告警名称或故障现象:网元脱管告警

告警产生原因:

1.原因1 设备停电

2.原因2 光缆双向中断

3.原因3 LAPD配置问题

4.原因4 主控板故障

5.原因5 网管进程故障

告警处理方法:

5.原因1 设备重新加电

6.原因2 修复光缆,详见光缆故障处理

7.原因3 如LAPD配置有问题,一般相邻设备光口会报CSF告警,请修改LAPD

配置。

8.原因4 插拔/重启主控盘

9.原因5 如果没有原因1-4的故障,能PING通网元,则应该是网管进程故障,

重启对应的EML进程。

2.12 光口Unavailable性能监测异常告警处理

告警名称或故障现象:新能监测数据告警

告警产生原因:

1.原因1 光口有故障导致性能监测数据不正常

告警处理方法:

1.原因1 该告警是次生告警,处理光口相关故障后就不会再报该告警;如光口

故障一时不能清除,可先关闭性能监测就不会再报了。但是,由于该告警是一种历史状态告警,即使清除原生故障不再报相关告警后,已报的告警条目也不会消失,此时可响应一下告警,然后munual purge(手工清除)该告警条目,该告警在网管就永久清除了。

2.13 网元不能更新告警处理

告警名称或故障现象:设备面板上告警状态栏全是虚的,此时设备的告警不能更新到网管,导致网管看到的告警是“假”告警,

告警产生原因:

2.原因1 网元在网管的状态不正常。

告警处理方法:

2.原因1 在1353NM上对stop supervision(停止监控),然后align up(重新

监控),操作以后设备的面板图上告警状态栏应该变实,1353NM和1354RM的告警就可以更新了。在1354RM上搜索到网元后定位该网元属于哪个1353NM网管的方法:选中网元,点击1354RM窗口中图标是“放大镜”

的工具按钮,弹出的窗口中有一个栏目中有neGroup=nxx(如210) 第一位数就标明了1353NM网管(1是汇聚1网管,2是骨干网管,3是1678网管,4是汇聚2网管),整个数字就是EML进程号。

相关文档
相关文档 最新文档