移动通信机房设备故障集中监控系统应用研究
唐丽华 张英杰 2010-11-10
摘 要:随着移动通信事业的飞速发展,交换、无线、传输、动力环境等设备故障集中监控系统的作用越来越重要。本文从移动通信网络的特点及移动机房交换、无线、传输、动力环境等设备的维护现状出发,阐述了集中监控的发展过程及其在移动通信机房中的重要作用,设计了移动通信机房设备故障集中监控系统。系统试点上线运行结果表明,该系统实现了不同专业设备的故障告警进行集中声光告警监视监控,防止了事故的发生,确保整个通讯网络系统稳定安全运行。
关键词:设备故障;集中监控;故障告警;声光告警
随着计算机与通信技术的快速发展,机房数量也在骤增。机房主要用来放置计算机系统或通信网络的核心设备,为了保证设备正常运行,机房装有许多配套设备 ,这些配套设备必须24小时监控,任何一种异常情况都必须得到及时有效地处理。否则,将对机房中各系统的正常工作带来严重危害 ,后果不堪设想[1~4]。设备的生产厂家众多,有华为、西门子、摩托罗拉、中兴等,为保证整个通信网络,特别是机房设备安全稳定运行,现有设备厂家依据设备故障对系统影响程度提供不同级别的告警信号,以提醒机房监控人员及时通过系统维护终端进行软维护或以不同方式(电话、短讯等)通知相关维护人员处理。机房采用24小时专人值班,由于设备分散在不同机房,为了确保整个通讯网络系统安全运行,防止事故的发生,移动通信机房需要对不同专业设备的故障告警进行集中声光告警监视监控。
目前许多机房的管理人员采用24小时专人值班,定时巡查机房环境设备,这样不仅加重了管理人员的负担,而且更多的时候,不能及时排除故障,对事故发生的时间及责任也无科学的管理。尤其目前国内普遍缺乏机房环境设备的专业管理人员,在许多地方的机房不得不安排软件人员或者不太懂机房设备管理甚至根本不懂机房设备维护的人员值班,这对机房的安全运行无疑又是一个不利因素。采用集中告警监视监控系统使得机房监控人员能够更及时的发现网络故障,及时处理故障,保证设备处于最佳运行状态,使其运行服务质量能够满足用户的需求。
移动通信机房设备故障集中监控系统将所有设备维护终端集中在一个统一平台输出告警,所有不同设备的故障集中产生声光告警,该系统使得监控人员只需要在同一平台处理日常告警。对于网络监控人员工作有以下有利方面:有利于网络监控人员作为第一责任人在7×24小时值班时,对安装在本地区内的话务网、传输网、数据网及所有相关设备的运行状况实时监控,对本地区动环监控的站点实时监控,特别是将交换网元、BSC网元以及传输网设备的监控作为重点,实时查看上述各网元上的各类告警信息,特别注意话务网、传输网设备上告警的关联性,并通知相关人员负责故障的受理和处理。有利于监控值班人员实时监测移动通信网网路、设备运行情况,对发现的故障进行预处理、派单,监督相关专业维护人员及时处理各种故障,并跟踪、处理过程和结果。发现重大故障立即通知相关专业管理、支撑部门和向上级领导汇报。
2移动通信机房设备故障集中监控系统特点
2.1集中告警信号的采集
告警是设备故障集中监控系统的一个重要功能。本系统采取从网管终端发出的告警信号端子提取信号进行处理,有指示灯两端输出的电压量和机内声卡输出的语音数据。故障发生后 ,系统会根据故障的优先级别将故障放入不同的队列进行处理。系统首先从高优先级队列获取报警信息,进行报警 。网络监控人员根据告警级别在10分钟内先分析判断、定位,确定故障发生的大致区域和基本性质后,通知相关人员进行处理,有效压缩故障历时。
2.2中央集中控管,提供良好的管理并提高效率
本系统将服务器集中控管,所有服务器的状态一目了然,监控人员可以透过因特网在远程方便地进行设备管理,并且在每个服务器端,也能由维护人员进行管理维护。
2.3支持各类智能设备的接入
机房设备种类多、生产厂家多,通信协议各不相同[5-6]。因此,为提高系统的兼容性,整个系统分为通信层、规约层 、业务逻辑层分别进行设计,各层之间相互不影响。可以根据需要进行通信方式的扩充、通信规约的扩充。系统新增设备终端,增加相应模块就能接入到该系统进行集中监控。
3移动通信机房设备故障集中监控系统设计与实现
3.1系统结构概述
方案设计充分考虑移动机房的实际要求,整个监控系统采用逐个设备汇接的结构 , 将所有设备故障终端接入到KM0216服务器进行集中监控,如图1所示。在设计中充分考虑系统的稳定性 、兼容性、系统所有设备的性价比 、及其系统今后扩展 、扩充需要。
监控站用来实现各种上层应用以及系统配置 ,监控人员只需要在设备故障集中监控系统处理日常告警,管理人员可以通过近端或设备故障集中监控系统进行数据管理、安全管理、配置管理、报表管理。移动通信机房设备故障集中监控系统选用一台Altusen KM0216 Matrix KVM Switch,来进行所有服务器的管理工作。选用USB的CPU端模块KA9120及CE250网络线来将服务器的键盘及鼠标连接到KM0432上。在视讯方面,用VS-82A将视讯一分为二,一方面传送给本地的显示器,另一方面透过KM0216与CPU端/控制端模块传送给远程的投影机,使得每台服务器都能保留原有的键盘、鼠标、显示器,不影响在本地的正常使用;同时,也能透过KM0216进行切换管理。在投影机一端,我们透过一台4埠KVM切换器CS-9134来选择三个KA9222控制端模块,以控制每个投影机的内容来源,以满足方案要求,也就是从网管主机中选择应显示某一台主机的视讯。此外,还配备了一个IP远程控管装置CN-6000,以实现透过因特网来控制网管主机的需求。
3.2系统功能概述
本系统将设备故障集中监控系统分为五大功能,分别为集中实时监视功能、集中实时声光告警功能、集中循环监视功能,用户管理功能,远程管理功能。
3.2.1集中实时监视功能
实时监控系统通过各维护终端将当前被监视设备的运行参数集中采集,实时显示在监控电脑屏幕上,监控人员通过该系统依据设备故障对系统影响程度提供不同级别的告警信号,以提醒机房监控人员及时通过系统维护终端进行软维护或以不同方式(电话、短讯等)通知相关维护人员处理。 3.2.2集中实时声光告警功能
该系统从网管终端发出的告警信号端子提取信号进行处理,将所有设备故障告警在同一集中声光告警箱产生实时告警。监控人员报警发生后,一般按以下步骤来进行处理:①通知。首要的是将报警信息告知给相关人员。②确认。表明已经知道报警的发生,正在处理。但此时报警仍然存在,没有消失。③消除。经过处理,故障消失,设备恢复正常,报警也随之消失。
3.2.3集中循环监视功能
该系统对所有维护终端都能够通过2台投影屏幕来循环监视,设置自动轮流显示所接维护终端,每个终端可设置停留时间(3s~60s);还可以用手动选择,当手动选择后,画面停止在选择的维护终端,直到再次选择自动显示按键。
3.2.4用户管理功能
本系统将管理权限分为三级:Super Administrator、Administrator、以及User,各级管理人员的管理范围和权限不同。
3.2.5远程管理功能
本系统提供远程管理功能,维护人员既能通过该系统进行数据管理、安全管理、配置管理、报表管理,又能在本地维护终端对设备进行相应的操作维护。
4系统实际应用效果
4.1应用效果
该系统的上线运行将永州分公司所有设备维护终端都集中在一个平台输出,如图2所示,所有设备维护终端都显示在本系统,选择数字键或者ENTER就进入相应终端进行监控监视。该系统使得监控人员彻底改变传统分散式监控模式,集中在同一个系统对所有维护终端进行监视监控。
4.2成果效益
该系统对所有设备告警进行集中监视,根据告警的级别产生相应的告警声音,以提示监控人员立即上报故障情况。如图3所示,一旦设备出现告警,相应设备指示灯闪烁,以声音提示监控人员立即对故障进行处理。
以如图4 YZHLR01设备维护终端为例介绍成果效益,对该设备的数据进行基础维护,一旦设备出现重大故障立即通知相关管理者。
5结语
本文所设计的移动设备故障集中监控系统已在永州分公司上线试运行,效果良好。目前,集中监控系统正在向分布式和网络化方向发展,人们不断对远程监控的简便性、实时性、可靠性提出更高的要求,因此,必须要灵活、及时地把最新的技术应用到监控系统中,才能使集中监控系统不断地发展,保障移动通信机房的安全运行,不断地满足通信业发展的需求。
[1]朱玉锦,张勇.调度自动化机房监控系统的设计与实现[J].信息与技术化,2007,(5):100-102.
[2]张天开,张晶明.机房环境监控网络系统的设计及应用[J].自动化仪表.2002,23(8):52-54.
[3]赵彬.高校机房监控系统的设计与实现[J].科技信息.2008(1):64.
[4]杨红和.公共计算机机房管理和维护初探[J].漳州师范学院学报(自然科学版).2005(2):65-68.
[5]艾默生网络能源公司.浅谈动力环境集中监控系统的应用与发展[J].电源世界,2007,(1):47-50.
[6]刘永新.动环监控系统在通信电源系统中的应用[J].电信工程技术与标准化,2007,(6):88-90.