近几年来,“移动梦网”以短信业务为契机,相继成功地推出了短信新闻、移动QQ、手机铃声图片下载、移动游戏等互联网应用。然而,在数据业务蓬勃发展的同时,网络负载和网络治理问题也逐渐开始暴露出来,制约了数据业务的更快发展。
中国移动开始积极寻求建立与数据业务发展相适应的更加科学的网络治理系统,以促进移动数据业务的持续繁荣。为了更好地治理全国各地庞大的网络,卓望信息科技有限公司(简称卓望)作为中国移动梦网的运营支撑中心,希望移动梦网各地网管人员能够全面实现主动治理、集中统一网管模式、整体优化网络资源等等,于是决定分不同阶段在全国实施网管系统。在第一个阶段,移动梦网计划在13个省市的核心节点全面部署网管系统,对分布于全国各地的核心节点的服务器、网络设备、应用系统和网站等实行大规模网络的集中监控和治理。
网管产品选型
为了选择完全符合需求的网管产品,中国移动对国内外主流网管产品从稳定性、易用性、灵活性、进行了严格细致的考察和测试,并从厂商规模、研发能力、核心技术、技术支持、售后服务等多个方面对网管产品进行资格限定。经过重重考核后,北京游龙科技自主研发的SiteView网管系统最终入选,其提供的移动网管解决方案获得了中国移动的高度认可。
中国移动网管系统采用分布式架构的部署方式实现全网集中治理,通过一台SiteView监测主机实时采集和分析各省SiteView子系统反馈的数据,7X24小时对移动梦网全国范围内网络核心节点运行状况进行全面监测。SiteView网管系统采用全中文web界面,具有灵活的系统架构,相对于国外网管系统而言,对大规模网络的治理更具有可用性和可操作性,实施快捷简便,具备高效的二次开发能力。
北京试点:寻找最佳网管模式
2004年12月,SiteView网管系统开始在中国移动北京分公司和中国移动望京总部两个地方进行试部署和运行。按照中国移动的实施计划,移动梦网网管系统先期在北京试运行,解决北京移动网管系统测试过程中发现的各种问题,完成相关二次开发后,再把这种网管实施模式推广到全国各地。
在北京移动网管系统进行安装和测试的过程中,切实解决了很多中国移动个性化网络环境导致的网管问题。通过部署,望京总部网管系统实现了对所有服务器的CPU、内存、DISK和所有网络设备的接口流量、接口状态和丢包率等的24小时实时监测,并提供及时、准确的警报系统和美观、直接的拓扑图,完全解决了其最为关注的核心层监控问题。
中国移动梦网各省大多使用四层核心交换机,因此在望京总部实施中碰到的四层交换机监控问题非常具有代表性。中国移动核心交换机使用频率高、负担大,经常当掉某一个或某几个端口,甚至整个交换机死机。以前,总是由用户反映网络问题,但即使移动网络治理人员通晓加班,有时也很难发现问题,因为网络发生问题的可能很多,需要对各种可能逐一排查。望京移动总部安装完siteview后,测试时发现四层交换机当掉,移动的网络治理人员当时表示怀疑,因为并没有用户反馈网络有问题,而且交换机的指示等还在亮着。但没过多久,网管人员就接到网络问题的反馈电话,查找后发现确实是交换机死机导致的原因。
SiteView网管系统治理平台
全国部署:高效、快捷的实施
在北京部署和测试进行的过程中,中国移动在全国各地网管项目的预备工作也在紧密进行中。由于各地移动梦网是同一个业务平台,其运行模式、网络环境都很像,而且试点工程做得很完善,所以中国移动可以很快在北京、广东、福建、湖北、山东、浙江、河南、江苏、上海、四川、重庆、辽宁各省分公司及中国移动总公司部署网管系统,各省实施均不超过四天。
在实施SiteView网管系统前,中国移动用了很多手段,但是对数据库、运营参数只能登陆查看,没有切实有效的方法。而中国移动有些机器很重要,比如话费系统服务器、短信业务系统服务器等,治理人员也不可能经常登陆。现在,中国移动通过采集分布在各省的网管子系统,把网络运行数据全部汇总到深圳的监测主机后,再进行集中分析、调整和处理等,极大地提高了网管的效率。
用户满足:得心应手的网管系统
一直以来,中国移动都要求各地网络治理人员统计汇报网络设备周报或日报,在没有采用siteview网管系统前,统计工作繁琐、效率很低。以前移动主要走VPN 安全认证模式、远程桌面之类的方式进行网络治理、维护和运营分析,上层很难及时把握全网状况,网管人员也不能在很短的时间内了解分布于全国各地的网络的整体运行情况。现在各省都采用了网管系统报表自动统计功能,随时随地都可以自定义生成一个图文并茂的统计报表,对整个系统运行维护帮助很大。
实施siteview网管系统以来,中国移动的网管系统一直在7X24小时高速运转,有力地保障了中国移动梦网业务的正常运行。中国移动各地的网管人员多次及时接到网管系统发送的某地某机器潜在运行故障、页面链接不正常、重要机器即将当掉等警报。由于siteview报警信息明确定位了故障位置,移动网管人员远程操作就解决绝大部分问题,放心地实现机房无人职守环境。