检查表：8步全自动搞定存储故障

从这个tip中你可以学到什么：怎样识别各种各样的存储问题并通过编程解决它们。

希望能够自动确定并解决问题的存储治理员有两个选择：

增加预算并购买一套软件和一系列服务来提供这方面的功能，或者利用工具中的方法来提供能够在问题变成麻烦之前自动地处理这些问题的服务。

这里有八个步骤，希望能够让你按图索骥，找到解决问题的方法，摒弃那种花钱费力还不一定能解决问题的做法。

全自动搞定存储故障

第一步：识别问题所在——假如有问题的话。

你可以选择对你的数据中心进行一次全面的评估，或者你可以从有数据库的地方开始评估，或者从中间的其它地方开始。一旦你决定了检查的范围，你就可以开始了。你需要知道哪个硬件（包括通过SAN连接的硬件和直接连接的硬件）出故障了。你可能会既兴奋又惊诧地发现你居然有如此多的存储设备。

第二步：研究故障。

当交换机报告一个利用高端口的故障时，一个帮助台标签会被创建。可惜，这通常在凌晨两点，并且数据中心里没有人来帮助你诊断这个故障。因此，你必须跳上车赶过去，或是拨到你的虚拟专用网（VPN），并研究这个故障。然后你发现这个故障的时间似乎很熟悉。似乎备份工作在每晚的这个时候开始。但你查看备份报告工具时，磁带正在工作而且所有事情看起来都很好。

假如备份报告工具在这时显示了备份工作失败的信息，你也许从这个故障中找到症状表现，从而引起警惕并采取措施以期能在未来解决这个问题。

第三步：制定纠正故障的措施。

第二天上午，在睡了几小时并喝了一杯咖啡后，你回到办公室给你们组的人解释当时的情形。假如这是一个确实的警告，那么这个组要共同决定一个纠正的措施。这可以采取以下形式：为交换机增加更多的吞吐容量，中断备份工作，改变时间表，或者仅仅提高交换机端口的吞吐极限。时间和故障都应是对问题的自动回应的一部分。

第四步：将解决办法和故障表现记录到知识库。

定义一个存储治理政策的最好方法就是考虑在日常存储环境（包括磁盘、磁带、交换机、主机和应用程序）的操作中发生的故障。然后你可以考虑这些故障和警告是怎样发生的以及工作组是怎样处理每个故障的（从确定故障到解决问题）。我把这些故障和警告看作是故障表现，把解决问题的措施看作是初期的存储治理政策。我必须说这种方法对我非常有用：“从实践成为措施。从措施成为政策。”

第五步：这个故障重复出现。现在怎么办？

从知识库中查看你记录的第一次发生时的解决办法，并按照记录的步骤解决这个故障。假如故障的表现是不同的，那么研究这个故障并提供一个解决办法。

第六步：回到故障解决模式。

第二天，你应该检查故障表现来确认那是否是相同的情况。这可能是一个重现的故障，这要求通过过滤技术来将这个假故障从警告系统中移除，或者改变产生故障的基础设备或交换机的极限。

第七步：假如故障反复发生，用一种简单的脚本来自动回应。

现在你是这种故障的熟练工，你可以写出回应内容的脚本或筛选出针对这种类型的故障所使用的解决办法。

第八步：继续监控和练习。

用这种方法培训你的全体员工，包括新员工。

最后，假如这样可以使你多睡几小时并使你能将宝贵的时间集中于那些真正重要的事情上的话，那么你正在做正确的事，而且能够继续做更大的事。

目的：阻止你的工作组总是解决那些并不是真正问题的问题，这样他们才能集中精力于手边的真正的大问题。