【资料名称】:APG故障分析
【资料作者】:非本人
【资料日期】:08
【资料语言】:中文
【资料格式】:DOC
【资料目录和简介】:
以下这些APG故障,下面将对这些故障进行大概的分析及给出解决的方法:
AP LOG STATISTICS
引起故障的原因:
1、AP VIRUS:APG感染病毒。
处理方法:人工DOWNLOAD更新病毒库后扫描清除病毒(如果是AP2的话,将AP2的ETRUST设置为从AP1更新病毒库),成功后用指令ACEASE手工删除告警。
2、LOGFILE/SECURITY LOGON:多次登陆AP错误告警。
处理方法:用指ACEASE消除告警。
AP SYSTEM ANALYSIS
引起故障的原因:
1、The object is LogicalDisk and the counter is % Free Space:硬盘空闲空间低过门限值。
处理方法:检查引起该故障的硬盘的文件,删除该硬盘的临时文件、较旧的备份文件等,并清空回收站。如删除了这些无关重要的文件后,仍无消除故障,此时可能需扩大硬盘空间(或压缩文件)来消除些故障,可打TR提交爱立信,提供解决方案。
* C盘空间不足
可删C:\TEMP
可删C:\TEST
可删C:\WINNT\SYSTEM32\LOGFILES\MSFTPSVC1(2、3)(保留一个月的文件)
* K盘空间不足
可删K:\IMAGES\NODEA(保留最新一个备份文件)
可删K:\IMAGES\NODEB(保留最新一个备份文件)
可删K:\ACS\LOGS\ALOG\LOGFILE(保留7天的文件)
可删K:\MCS\LOGS\PDS (保留7天的文件)
K盘主要文件是的网优统计文件,K盘空间不足多是网优统计文件过多所致。建议出K盘空间不足告警时,先联系网优室删除统计文件。网优统计文件所在位置:K:\AES\DATA\CDH\FTP
* L盘空间不足
可删L:\TEMP
可删L:\FMS\BACKUP
可删L:\FMS\DATA\TMP
可删L:\FMS\DATA\CPF\RELVOLUMSW\RELCMDHDF(保留2个月的文件)
2、The object is Security Log and the counter is %Used Space:安全记录占用空间超过门限值。
处理方法:连接PCANYWHERE到APG,检查EVENT LOG文件,删除较旧的EVENT LOG文件,直到告警消除。(如有必要,可将这些EVENT LOG备份后再删除)
*Select Start | Programs | Administrative Tools | Event Viewer
*In the Event Viewer select the Security log. Select Log | Security
*Select Log | Clear All Events.
*Select 'Yes' in the message box Clear Event Log.
AP FILE PROCESSING FAULT
引起故障的原因:
从我们代维的网元看,出现这个故障的原因都是由于ALOG传送失败引起,一般是由于AP做REBOOT后引起ALOG传送OSS失败,所以当AP REBOOT正常后,需重送这些失败的ALOG文件。(如是其他文件,相应的重传这些文件)
处理方法:用指令AFPFTI -F ALOG重传ALOG失败的ALOG文件,消除故障。
AP PROCESS REINITIATED
引起故障的原因:
APG进程出现过重启后会出现此故障
处理方法:用指令CLUSTER RES查看所有进程状态是否”ONLINE”,如果不是则用指令(CLUSTER RES **** /ON /WAIT)将进程”ONLINE”,如进程状态为”ONLINE”,用指令ACEASE消除该告警。
AP FAULT
引起故障的原因:
1、MIRRORED DISKS NOT REDUNDANT:磁盘镜像有问题引起。
处理方法:用指令“RAIDUTIL –L LOGICAL”查看,如果地址为D0B0T0D0的RAID-1的状态为DEGRADED,则用指令“RAIDUTIL –A REBUILD D0B0T0D0”重建RAID-1。等过一段时间后,地址为D0B0T0D0的RAID-1的状态恢复正常OPTIMAL,故障消除。如果用指令“RAIDUTIL –L LOGICAL”查看所有状态均为OPTIMAL,则直接用指令ACEASE消除该告警。
2、GENERAL ERROR:AP故障引起。
处理方法:用指令ALIST查看告警列表,如有其他AP故障,先修复其他故障,然后再用指令ACEASE消除告警。
3、AP-AP LINK ALARM:一般由AP NOT REDUNDANT故障引起。
处理方法:恢复AP NOT REDUNDANT故障(详情看AP NOT REDUNDANT),如用指令ALIST没列出AP NOT REDUNDANT故障,可用ACEASE消除故障。
4、AP EXTERNAL LINK ALARM:一般由AP PROCESS STOPPED故障引起。
处理方法:恢复AP PROCESS STOPPED故障(详情看AP PROCESS STOPPED),如用指令ALIST没列出AP PROCESS STOPPED故障,可用ACEASE消除故障。
AP NOT REDUNDENT:
引起故障的原因:
APG其中一个NODE DOWN掉引起。
处理方法:如果APG状态正常,直接指令ACEASE清除告警,如果状态不正常,按OPI流程:AP, System, Repair处理。
过往处理经验大概操作:(借鉴)
1、在DOWN掉的NODE先做下一个REBOOT,看能否把NODE UP起来(做REBOOT前需用指令NET ACCOUNTS /SYNC做一下帐号同步)。
2、用指令NET START CLUSSVC重启CLUSTER RES。
3、如执行上两步都无法修复的话,可连上PCANYWHERE,查检各SERVICES的设置(特别是ACS PRC开头的),跟其他正常运作的网元对比,看是否有设置不一样,如有,改正后再做此边的REBOOT。
4、如还不能恢复,可打TR提交爱立信,提供解决方案。
AP PROCESS STOP
引起故障的原因:
进程人工停止或者遇到故障自动停止引起。
处理方法:查看该进程状态是否“ONLINE”,如该进程状态为“ONLINE”,用指令ACEASE消除该告警。如果不是则用指令CLUSTER RES *** /ON /WAIT将该进程“ONLINE”,如不成功,可对此NODE做个REBOOT解决。
IO STORAGE SPACE WARNING
引起故障的原因:
IO存储空间不足引起
处理方法:CPDLIST查看IO文件,用DOS命令DEL删除多余的IO文件。
AP REBOOT
引起故障的原因:
APG重启后的事件告警。
处理方法:检查该AP状态是否为“ACTIVE”, 如不正常,则按AP NOT REDUNDENT流程处理。检查“CLUSTER GROUP”、“CLUSTER RES”是否“ONLINE”,如不正常,用指令将该进程”ONLINE”,如不成功,则按AP PROCESS STOP流程处理。检查APG恢复正常后,需用指令ACEASE消除该告警。
CP AP COMMUNICATION FAULT
引起故障的原因:
CP与AP通信中断引起。
处理方法:一般重启APG或做CP SMALL可以恢复。注意:装载补丁、APG重启或CP重启期间会出现该告警。
AP ANTIVIRUS FUNCTION FAULT
引起故障的原因:
AP的NT系统的杀毒软件设定了定期更新病毒库,如果四次请求下载更新病毒库不成功则会出现告警。
处理方法:人工DOWNLOAD更新病毒库(如果是AP2,应将AP2的ETRUST设置为从AP1更新病毒库),人工DOWNDLOAD流程看附件:
AP NOT AVAILABLE
引起故障的原因:
此故障通常是进程吊死OFFLINE或NODE DOWN掉起引APG不可用。
处理方法:
1、指令CLUSTER RES查看各进程状态,如有进程为OFFLINE,即将进程Bring Online(CLUSTER RES *** /ON /WAIT),如不成功,做该NODE的REBOOT。
2、如还不行,可参照AP NOT REDUNDANT的故障处理。
注:具体操作流程按照OPI:AP NOT AVAILABLE处理。
AP SYSTEM CLOCK NOT SYNCHRONIZED
引起故障的原因:
1、Difference between CP and AP time exceeds 600 s - APZ alarm. There was a jump in AP/CP time:由于CP与AP之间的时钟相差600秒引起。
处理方法:拔打010117,用指令CACLP核对CP时钟,同是也用AP指令time /T及date /T核对AP的时钟,并对有误差的时钟进行校正。
2、除了第一种原因处,其他原因可提交TR爱立信,提供解决方案。
AP DIAGNOSTIC FAULT
引起故障的原因:AP诊断错误
处理方法:用指令ALIST查看告警列表,看是否列出告警号为8701和告警参考数据为:C:\ACS\logs\USA\usa.temp. I/O error : Missing parameter,如果是,即删除文件C:\ACS\logs\USA\usa.temp,并做该AP的REBOOT,如不能解决或其他原因,可提交TR爱立信,提供解决方案。
BILLING,AP DISK,FILES SPACE LIMIT REACHED
引起故障的原因:
计费容量不足,通常当计费文件的大小达到或超过硬盘分配给CHARGING目录大小的80%门限值时,就会出现计费文件空间达到限制值的告警。可能会引起计费文件的丢失。
处理方法:通过减小计费文件在硬盘的保存时间来解决该告警问题,可依照OPI“APG40, Soft Function Change, Parameter,Change”进行对计费参数的修改,由于此操作涉及到计费参数修改,可申请爱立信现场支持。
出现此故障,我们可先做以下预处理:
1、检查询问计费中心能否收到此网元的计费文件,如不能,即重启RDT_Server进程(Cluster res Cluster res RDT_Server /off /waitCluster res RDT_server /on /wait)。
2、将计费文件备份到磁盘,在硬件上删除掉已备份到磁盘并传到计费中心的计费文件。
3、在紧急情况下,也可向交换室申请将计费倒到AP1上。
AUDIT LOG DEACTIVATED
引起故障的原因:
Audit Log文件被去活。
处理方法:用alogact指令激活Audit Log。
BILLING, AP OUTPUT, CONNECTION TO EXTERNAL HOST LO
引起故障的原因:
由于APG网元与省公司计费业务中心的FTP配置不一样所致,双方的接收协议存在区别,但该故障不影响计费文件的产生及接收。
处理方法:修改APG网元SecureDestinationHost的参数或计费中心修改FTP的配置参数。
FILE NOTIFICATION, AP CDH, ACKNOWLEDGEMENT NOT REC
引起故障的原因:
APG数据输出到外部系统失败,一般都为临时性故障。
处理方法:一般临时故障会自已恢复;用指令cdhver –m destination核验DEST是否正常。
CONNECTION SUPERVISION, AP CDH, CONNECTION TO REMO
引起故障的原因:同上
处理方法:同上
APG在日常维护中遇到的另类问题:
PCANYWHERE连接到APG后,点击桌面上的图标后没有反应,用显示器和键盘直接连到APG上点击还是一样,爱立信认为有可能是病毒的问题,但最后都未有结论。
处理方法:做一个reboot是可以暂时解决问题。
在做例行TEST LOAD时,文件LOAD入不成功出IO FAULT 15的结果。
处理方法:在CP模式中用ocsip看到IPNAOS的版本为CXC1060053R2B01,但是在AP模式下看到的版本为CXC1060053R2C,按照OPI流程Inter-Platform Network Software, Change对IPN进行function change后,问题解决。
曾经出现有些网元APG REBOOT后,有两个进程ACS_PRC_ClusterControl_1,ACS_PRC_EventAnalyser_1的状态为OFFLINE,将这两个进程BRING ONLINE的时候会引起APG40的循环REBOOT。
处理方法:此问题是Acs_prc_eventanalyser 和 Acs_prc_clustercontrol这个两个进程的参数设置有错误引起,只要修改这两项的设置就可以解决进程不能online的问题。具体是通过pcanywhere连到APG的ap1 passive node,在控制面板-SERVICES里面找到这两项进程,将其设置由原来ATUOMATIC改为Manual,并把ACS_PRC_ eventanalyser的LOG ON AS改为System Account".进行完这两步之后可以在该node重启进程。用同样的方法在ACTIVENode完成该操作。现在APG的问题可以解决。
以后类似进程不能重启的问题可以先找一个正常的APG系统找到该进程将两者的参数设置比较一下,是否设置错误的问题。
在一边node做reboot后不能恢复的问题。
处理方法:主要是raid磁盘的问题,操作步骤是参照OPI: APG40, Node, Change。
扫码关注5G通信官方公众号,免费领取以下5G精品资料
1、回复“ZGDX”免费领取《中国电信5G NTN技术白皮书》
2、回复“TXSB”免费领取《通信设备安装工程施工工艺图解》
3、回复“YDSL”免费领取《中国移动算力并网白皮书》
4、回复“5GX3”免费领取《 R16 23501-g60 5G的系统架构1》
5、回复“iot6”免费领取《【8月30号登载】物联网创新技术与产业应用蓝皮书——物联网感知技术及系统应用》
6、回复“6G31”免费领取《基于云网融合的6G关键技术白皮书》
7、回复“IM6G”免费领取《6G典型场景和关键能力白皮书》
8、回复“SPN2”免费领取《中国移动SPN2.0技术白皮书》
|