MSCBSC 移动通信论坛
搜索
登录注册
网络优化工程师招聘专栏 4G/LTE通信工程师最新职位列表 通信实习生/应届生招聘职位

  • 阅读:4763
  • 回复:3
APG故障分析
conghua2b
初级会员



 发短消息    关注Ta 

积分 90
帖子 18
威望 1916 个
礼品券 0 个
专家指数 0
注册 2011-3-22
专业方向  通信技术
回答问题数 0
回答被采纳数 0
回答采纳率 0%
 
发表于 2011-06-08 14:07:13  只看楼主 
【资料名称】:APG故障分析

【资料作者】:非本人

【资料日期】:08

【资料语言】:中文

【资料格式】:DOC

【资料目录和简介】:

以下这些APG故障,下面将对这些故障进行大概的分析及给出解决的方法:
AP LOG STATISTICS
引起故障的原因:
1、AP VIRUS:APG感染病毒。
处理方法:人工DOWNLOAD更新病毒库后扫描清除病毒(如果是AP2的话,将AP2的ETRUST设置为从AP1更新病毒库),成功后用指令ACEASE手工删除告警。
2、LOGFILE/SECURITY LOGON:多次登陆AP错误告警。
处理方法:用指ACEASE消除告警。
AP SYSTEM ANALYSIS
引起故障的原因:
1、The object is LogicalDisk and the counter is % Free Space:硬盘空闲空间低过门限值。
处理方法:检查引起该故障的硬盘的文件,删除该硬盘的临时文件、较旧的备份文件等,并清空回收站。如删除了这些无关重要的文件后,仍无消除故障,此时可能需扩大硬盘空间(或压缩文件)来消除些故障,可打TR提交爱立信,提供解决方案。
* C盘空间不足
可删C:\TEMP
可删C:\TEST
可删C:\WINNT\SYSTEM32\LOGFILES\MSFTPSVC1(2、3)(保留一个月的文件)

* K盘空间不足
可删K:\IMAGES\NODEA(保留最新一个备份文件)
可删K:\IMAGES\NODEB(保留最新一个备份文件)
可删K:\ACS\LOGS\ALOG\LOGFILE(保留7天的文件)
可删K:\MCS\LOGS\PDS (保留7天的文件)
K盘主要文件是的网优统计文件,K盘空间不足多是网优统计文件过多所致。建议出K盘空间不足告警时,先联系网优室删除统计文件。网优统计文件所在位置:K:\AES\DATA\CDH\FTP

* L盘空间不足
可删L:\TEMP
可删L:\FMS\BACKUP
可删L:\FMS\DATA\TMP
可删L:\FMS\DATA\CPF\RELVOLUMSW\RELCMDHDF(保留2个月的文件)

2、The object is Security Log and the counter is %Used Space:安全记录占用空间超过门限值。
处理方法:连接PCANYWHERE到APG,检查EVENT LOG文件,删除较旧的EVENT LOG文件,直到告警消除。(如有必要,可将这些EVENT LOG备份后再删除)
*Select Start | Programs | Administrative Tools | Event Viewer
*In the Event Viewer select the Security log. Select Log | Security
*Select Log | Clear All Events.
*Select 'Yes' in the message box Clear Event Log.
AP FILE PROCESSING FAULT
引起故障的原因:
从我们代维的网元看,出现这个故障的原因都是由于ALOG传送失败引起,一般是由于AP做REBOOT后引起ALOG传送OSS失败,所以当AP REBOOT正常后,需重送这些失败的ALOG文件。(如是其他文件,相应的重传这些文件)
处理方法:用指令AFPFTI -F ALOG重传ALOG失败的ALOG文件,消除故障。
AP PROCESS REINITIATED
引起故障的原因:
APG进程出现过重启后会出现此故障
处理方法:用指令CLUSTER RES查看所有进程状态是否”ONLINE”,如果不是则用指令(CLUSTER RES **** /ON /WAIT)将进程”ONLINE”,如进程状态为”ONLINE”,用指令ACEASE消除该告警。
AP FAULT
引起故障的原因:
1、MIRRORED DISKS NOT REDUNDANT:磁盘镜像有问题引起。
处理方法:用指令“RAIDUTIL –L LOGICAL”查看,如果地址为D0B0T0D0的RAID-1的状态为DEGRADED,则用指令“RAIDUTIL –A REBUILD D0B0T0D0”重建RAID-1。等过一段时间后,地址为D0B0T0D0的RAID-1的状态恢复正常OPTIMAL,故障消除。如果用指令“RAIDUTIL –L LOGICAL”查看所有状态均为OPTIMAL,则直接用指令ACEASE消除该告警。
2、GENERAL ERROR:AP故障引起。
处理方法:用指令ALIST查看告警列表,如有其他AP故障,先修复其他故障,然后再用指令ACEASE消除告警。
3、AP-AP LINK ALARM:一般由AP NOT REDUNDANT故障引起。
处理方法:恢复AP NOT REDUNDANT故障(详情看AP NOT REDUNDANT),如用指令ALIST没列出AP NOT REDUNDANT故障,可用ACEASE消除故障。
4、AP EXTERNAL LINK ALARM:一般由AP PROCESS STOPPED故障引起。
处理方法:恢复AP PROCESS STOPPED故障(详情看AP PROCESS STOPPED),如用指令ALIST没列出AP PROCESS STOPPED故障,可用ACEASE消除故障。
AP NOT REDUNDENT:
引起故障的原因:
APG其中一个NODE DOWN掉引起。
处理方法:如果APG状态正常,直接指令ACEASE清除告警,如果状态不正常,按OPI流程:AP, System, Repair处理。
过往处理经验大概操作:(借鉴)
1、在DOWN掉的NODE先做下一个REBOOT,看能否把NODE UP起来(做REBOOT前需用指令NET ACCOUNTS /SYNC做一下帐号同步)。
2、用指令NET START CLUSSVC重启CLUSTER RES。
3、如执行上两步都无法修复的话,可连上PCANYWHERE,查检各SERVICES的设置(特别是ACS PRC开头的),跟其他正常运作的网元对比,看是否有设置不一样,如有,改正后再做此边的REBOOT。
4、如还不能恢复,可打TR提交爱立信,提供解决方案。
AP PROCESS STOP
引起故障的原因:
进程人工停止或者遇到故障自动停止引起。
处理方法:查看该进程状态是否“ONLINE”,如该进程状态为“ONLINE”,用指令ACEASE消除该告警。如果不是则用指令CLUSTER RES *** /ON /WAIT将该进程“ONLINE”,如不成功,可对此NODE做个REBOOT解决。
IO STORAGE SPACE WARNING
引起故障的原因:
IO存储空间不足引起
处理方法:CPDLIST查看IO文件,用DOS命令DEL删除多余的IO文件。
AP REBOOT
引起故障的原因:
APG重启后的事件告警。
处理方法:检查该AP状态是否为“ACTIVE”, 如不正常,则按AP NOT REDUNDENT流程处理。检查“CLUSTER GROUP”、“CLUSTER RES”是否“ONLINE”,如不正常,用指令将该进程”ONLINE”,如不成功,则按AP PROCESS STOP流程处理。检查APG恢复正常后,需用指令ACEASE消除该告警。
CP AP COMMUNICATION FAULT
引起故障的原因:
CP与AP通信中断引起。
处理方法:一般重启APG或做CP SMALL可以恢复。注意:装载补丁、APG重启或CP重启期间会出现该告警。
AP ANTIVIRUS FUNCTION FAULT
引起故障的原因:
AP的NT系统的杀毒软件设定了定期更新病毒库,如果四次请求下载更新病毒库不成功则会出现告警。
处理方法:人工DOWNLOAD更新病毒库(如果是AP2,应将AP2的ETRUST设置为从AP1更新病毒库),人工DOWNDLOAD流程看附件:

AP NOT AVAILABLE
引起故障的原因:
此故障通常是进程吊死OFFLINE或NODE DOWN掉起引APG不可用。
处理方法:
1、指令CLUSTER RES查看各进程状态,如有进程为OFFLINE,即将进程Bring Online(CLUSTER RES *** /ON /WAIT),如不成功,做该NODE的REBOOT。
2、如还不行,可参照AP NOT REDUNDANT的故障处理。
注:具体操作流程按照OPI:AP NOT AVAILABLE处理。
AP SYSTEM CLOCK NOT SYNCHRONIZED
引起故障的原因:
1、Difference between CP and AP time exceeds 600 s - APZ alarm. There was a jump in AP/CP time:由于CP与AP之间的时钟相差600秒引起。
处理方法:拔打010117,用指令CACLP核对CP时钟,同是也用AP指令time /T及date /T核对AP的时钟,并对有误差的时钟进行校正。
2、除了第一种原因处,其他原因可提交TR爱立信,提供解决方案。
AP DIAGNOSTIC FAULT
引起故障的原因:AP诊断错误
处理方法:用指令ALIST查看告警列表,看是否列出告警号为8701和告警参考数据为:C:\ACS\logs\USA\usa.temp. I/O error : Missing parameter,如果是,即删除文件C:\ACS\logs\USA\usa.temp,并做该AP的REBOOT,如不能解决或其他原因,可提交TR爱立信,提供解决方案。
BILLING,AP DISK,FILES SPACE LIMIT REACHED
引起故障的原因:
计费容量不足,通常当计费文件的大小达到或超过硬盘分配给CHARGING目录大小的80%门限值时,就会出现计费文件空间达到限制值的告警。可能会引起计费文件的丢失。
处理方法:通过减小计费文件在硬盘的保存时间来解决该告警问题,可依照OPI“APG40, Soft Function Change, Parameter,Change”进行对计费参数的修改,由于此操作涉及到计费参数修改,可申请爱立信现场支持。
出现此故障,我们可先做以下预处理:
1、检查询问计费中心能否收到此网元的计费文件,如不能,即重启RDT_Server进程(Cluster res Cluster res RDT_Server /off /waitCluster res RDT_server /on /wait)。
2、将计费文件备份到磁盘,在硬件上删除掉已备份到磁盘并传到计费中心的计费文件。
3、在紧急情况下,也可向交换室申请将计费倒到AP1上。
AUDIT LOG DEACTIVATED
引起故障的原因:
Audit Log文件被去活。
处理方法:用alogact指令激活Audit Log。
BILLING, AP OUTPUT, CONNECTION TO EXTERNAL HOST LO
引起故障的原因:
由于APG网元与省公司计费业务中心的FTP配置不一样所致,双方的接收协议存在区别,但该故障不影响计费文件的产生及接收。
处理方法:修改APG网元SecureDestinationHost的参数或计费中心修改FTP的配置参数。
FILE NOTIFICATION, AP CDH, ACKNOWLEDGEMENT NOT REC
引起故障的原因:
APG数据输出到外部系统失败,一般都为临时性故障。
处理方法:一般临时故障会自已恢复;用指令cdhver –m destination核验DEST是否正常。
CONNECTION SUPERVISION, AP CDH, CONNECTION TO REMO
引起故障的原因:同上
处理方法:同上
APG在日常维护中遇到的另类问题:
PCANYWHERE连接到APG后,点击桌面上的图标后没有反应,用显示器和键盘直接连到APG上点击还是一样,爱立信认为有可能是病毒的问题,但最后都未有结论。
处理方法:做一个reboot是可以暂时解决问题。
在做例行TEST LOAD时,文件LOAD入不成功出IO FAULT 15的结果。
处理方法:在CP模式中用ocsip看到IPNAOS的版本为CXC1060053R2B01,但是在AP模式下看到的版本为CXC1060053R2C,按照OPI流程Inter-Platform Network Software, Change对IPN进行function change后,问题解决。
曾经出现有些网元APG REBOOT后,有两个进程ACS_PRC_ClusterControl_1,ACS_PRC_EventAnalyser_1的状态为OFFLINE,将这两个进程BRING ONLINE的时候会引起APG40的循环REBOOT。
处理方法:此问题是Acs_prc_eventanalyser 和 Acs_prc_clustercontrol这个两个进程的参数设置有错误引起,只要修改这两项的设置就可以解决进程不能online的问题。具体是通过pcanywhere连到APG的ap1 passive node,在控制面板-SERVICES里面找到这两项进程,将其设置由原来ATUOMATIC改为Manual,并把ACS_PRC_ eventanalyser的LOG ON AS改为System Account".进行完这两步之后可以在该node重启进程。用同样的方法在ACTIVENode完成该操作。现在APG的问题可以解决。
以后类似进程不能重启的问题可以先找一个正常的APG系统找到该进程将两者的参数设置比较一下,是否设置错误的问题。
在一边node做reboot后不能恢复的问题。
处理方法:主要是raid磁盘的问题,操作步骤是参照OPI: APG40, Node, Change。
扫码关注5G通信官方公众号,免费领取以下5G精品资料
  • 1、回复“ZGDX”免费领取《中国电信5G NTN技术白皮书
  • 2、回复“TXSB”免费领取《通信设备安装工程施工工艺图解
  • 3、回复“YDSL”免费领取《中国移动算力并网白皮书
  • 4、回复“5GX3”免费领取《 R16 23501-g60 5G的系统架构1
  • 5、回复“iot6”免费领取《【8月30号登载】物联网创新技术与产业应用蓝皮书——物联网感知技术及系统应用
  • 6、回复“6G31”免费领取《基于云网融合的6G关键技术白皮书
  • 7、回复“IM6G”免费领取《6G典型场景和关键能力白皮书
  • 8、回复“SPN2”免费领取《中国移动SPN2.0技术白皮书
  • 对本帖内容的看法? 我要点评


    作者的更多帖子
     
    [充值威望,立即自动到帐] [VIP贵宾权限+威望套餐] 另有大量优惠赠送活动,请光临充值中心
    充值拥有大量的威望和最高的下载权限,下载站内资料无忧
    smile笑
    中级会员
    鎵嬫満鍙风爜宸查獙璇


     发短消息    关注Ta 

    积分 966
    帖子 192
    威望 1447 个
    礼品券 8 个
    专家指数 6
    注册 2010-8-20
    专业方向  网络优化
    回答问题数 0
    回答被采纳数 0
    回答采纳率 0%
     
    发表于 2011-06-08 22:16:54 
    技术问题,回答得专家指数,快速升级
    好东西 ,我可以坐沙发了

    对本帖内容的看法? 我要点评

     
    [立即成为VIP会员,百万通信专业资料立即下载,支付宝、微信付款,简单、快速!]
    mscbschlr
    原始天尊
    鎵嬫満鍙风爜宸查獙璇


     发短消息    关注Ta 

    C友·铁杆勋章   公益·慈善勋章   管理·贡献勋章   纪念勋章·论坛周年庆   财富勋章·财运连连   财富勋章·大富豪   纪念勋章·奥运年   纪念勋章·猪年纪念   C友·活跃勋章   纪念勋章·五周年   财富勋章·财神   财富勋章·富甲一方   纪念勋章·十周年  
    积分 138733
    帖子 2070
    威望 1325706 个
    礼品券 102 个
    专家指数 121
    注册 2006-9-1
    专业方向  ERICSSON交换
    来自 广东
    回答问题数 0
    回答被采纳数 0
    回答采纳率 0%
     
    发表于 2011-06-09 09:41:42 
    太老了,还是NT时的资料

    对本帖内容的看法? 我要点评





     
    最新通信职位:广东通信人才网 | 北京通信人才网 | 上海通信人才网 | 南京通信人才网 | 西安通信人才网 | 重庆通信人才网 | 中国通信人才网
    wangwangpk
    钻石会员
    鎵嬫満鍙风爜宸查獙璇


     发短消息    关注Ta 

    财富勋章·万元户  
    积分 12236
    帖子 449
    威望 145319 个
    礼品券 15 个
    专家指数 12
    注册 2007-12-22
    专业方向  核心网交换
    回答问题数 0
    回答被采纳数 0
    回答采纳率 0%
     
    发表于 2014-01-11 08:57:28 
    谢谢楼主资源共享

    对本帖内容的看法? 我要点评

     
    [2分钟拥有VIP权限和充足威望,可下载站内任何资料] [快速找到一份高薪的通信行业职位]

    快速回复主题    
    标题
    内容
     上传资料请点左侧【添加附件】

    当前时区 GMT+8, 现在时间是 2024-04-19 15:48:42
    渝ICP备11001752号  Copyright @ 2006-2016 mscbsc.com  本站统一服务邮箱:mscbsc@163.com

    Processed in 0.292321 second(s), 19 queries , Gzip enabled
    TOP
    清除 Cookies - 联系我们 - 移动通信网 - 移动通信论坛 - 通信招聘网 - Archiver