网络是企业的战略性业务资源,负责承载日常消息和关键任务数据,实现用户与业务流程之间的通信。对公司内部的许多用户来说,网络都是像水电一样无法看到的耗用型共用设施,一旦出现故障中断,瞬间便会凸显出来。
网络不可用时会出现什么情况?网络故障中断会对公司形象及客户产生严重影响。员工无法接入电子邮件、电话或关键业务应用,业务流程无法更新,客户可能到别处去查找信息或者投入其他供应商的怀抱。据Infonetics Research早期开展的调查统计,网络故障中断每年使大型企业损失3.6%的年收入。
当然,提高网络可用性只是IT和网络机构的工作之一。随着网络逐渐成为业务战略核心,企业的工作重点也朝着提供新业务、提高灵活性以及创新支持的方向转移。 保持网络的正常运行固然重要,但降低预算也同样重要。为了管理好这组矛盾体,企业需要实施持续的系统方法。
网络故障中断的原因和影响
近期对技术决策人开展的调查显示了对网络故障中断原因进行调查的重要性。Strategy Group2007年7月对Ziff Davis Enterprise数据库中的173人开展了调查,他们都是员工在100人以上的企业中的经理人或更高级别的管理者。回答人称他们对网络故障中断的容忍度越来越低,近1/3(32%)的回答人称他们根本无法容忍故障中断,这组回答人对网络故障中断的平均容忍时间仅为1.8小时。我们不难了解为什么回答人称网络修复的平均成本高达每天300万美元,其中10%的回答人预计网络故障中断造成的损失和收入丢失高达每天1000万美元。
网络故障中断的负面影响不仅限于经济损失。公司形象受损是回答人最担心的问题(69%),其次是丧失客户信任(47%)。考虑到这些潜在后果,公司将70%的IT预算用于维护网络运行,只剩下30%用于实施战略和创新活动不足为奇。总的来说,这组回答人希望这种格局在今后12-18个月中发生变化,达到60/40的比例。
近一半的回答人(46%)称他们的公司采取被动方法来监控网络并解决网络问题。有趣的是,与采取被动的无序方法的公司相比,采取主动的战略性方法的公司用于维护网络运行的IT预算更少,分别是75-80%和60-65%。减少网络运行开支能够创造多个优势,例如,与采取被动方法的竞争对手相比,采用主动方法的公司能够持续创新、提高IT运行效率并实现更高的绩效。
运行团队在提高网络可用性方面面临多个挑战。计划内检修、意外的硬件或软件故障及人为错误等都可能导致网络设备故障停机。这是一个复杂的问题,要想设计出能够最大限度地提高可用性的系统,您需要更深入地了解基本要素。
设备检修
供应商投入大量资源缩短产品的检修时间。因此,检修是网络设备故障中断的最次要的原因,约占到5-10%。一般产品现在都提供热插拔线路卡和电源。冗余的容错软件和不中断的硬件也很普遍。不中断业务的软件升级是最新发展趋势,允许您在不影响现有业务运行的情况下添加或升级软件模块。
业界的一致关注使得网络可用性得到了大幅度提高。虽然保持高性能仍是网络供应商的关注焦点,但它并不能最大限度地提高网络可用性。例如,假设计划内检修对网络故障中断负有5-10%的责任,将网络设备的检修时间缩短20%只能将网络的故障中断时间缩短1-2%。
遗憾的是,这种方法将快速生成多个复杂的、分散的软件版本。用户必须谨慎选择适当的软件版本以便获得重要的特性或硬件支持。有时,不同的软件版本中可能会重复出现以前曾修复好的缺陷。需要全网络特性的客户必须仔细阅读软件文档以确保版本适用于所有不同的硬件平台。等到所有的版本完成编码、测试和最终发行,可能需要等待一年或更长时间。许多时候,升级这些软件可能会带来其他问题,需要客户先行降级,然后等到修复包提供时再实施升级。升级-降级-再升级的重复流程需要操作团队处理不断变化的一系列复杂的软件版本,将会延长网络的故障中断时间。
系统错误对网络故障中断负有25%的责任,但如果供应商采取被动方法,将迫使客户进入被动模式,进而必须提供更多资源来解决问题,甚至不惜动用其他领域的资源。您用在软件版本评估及安装补丁上的时间越长,用在创新上面的时间越短、资源越少;全新网络服务的部署周期越长,人为错误的风险越大。对于25%的故障中断因系统错误而起的公司来说,减少20%的系统错误将使网络故障中断时间缩短5%,但实现这个成效要求客户投入大量资源或者长时间延期全新软件特性和全新硬件的面市计划。
系统错误
供应商还高度重视减少硬件和软件错误,据瞻博网络的许多客户称,这部分占到网络故障中断的25%。然而,他们对此使用了两种截然不同的方法:主动和被动。
被动方法
被动方法有利于市场宣传,供应商承诺能够快速响应重大问题,将倾其所有来解决此类问题,必要时可通过实施软件补丁来解决问题。
主动方法
主动方法听起来简单,但却需要非常严格的工程设计。由于某些问题在所难免,因此,这个方法论注重提前预测并解决潜在问题。对客户来说,主动通知诊断信息可帮助他们缩短甚至避免某些类型的网络故障中断。通知时间越早,故障排除工作开始地越早,用于快速解决问题的可用方法越多。
对于供应商来说,主动方法允许他们集中精力确保按时推出全新的单一软件版本。他们能够逐渐积累一套高级的回归测试脚本,以确保以前开发的所有特性都能继续如期运行。通过避免安装软件补丁以及不断添加软件版本,客户将腾出更多时间用在网络特性和新平台的研究上,缩短潜在的升级评估和测试时间。使用被动方法来解决问题的供应商看似优势多多,但总抵不过不出现任何问题吧?
人为因素
据调查,人为错误对网络故障中断负有50-80%的责任。但在复杂的系统环境中,出现人为错误的原因往往不是能力欠缺。包含多个组件并涉及到多类互动活动的复杂系统创建了复杂的环境,在此,组件之间的微妙关系往往不为人知。
人为错误不是导致出现问题的直接原因,而是环境复杂性的征兆。因此,我们得出这样的结论:降低和管理网络复杂性将对网络故障中断时间产生最为巨大的影响。将人为错误减少20%可将网络故障中断总时间缩短10-16%,是减少系统错误的2-3倍,是缩短检修时间的8-15倍。