在许多行业中,成功企业都是那些能运用客户与商业数据来支持实时决策的公司。分析数据所获得的洞见是商业智能的基础,而商业智能则是竞争力的来源。
以金融及保险服务业为例,其将历史性与外部数据整合在一起,能立即评估出客户的终生价值;无线通讯业,则运用具体的客户通话纪录,来评估新的计费方案;零售业使用客户与存货数据,达到更有效的行销、交叉销售,且让货架上摆满客户所要的货品。这类相关的例子可以说是不胜枚举。
近来,因为存储设备成本降低,企业开始考虑永久储存其所有数据,认为深度的历史数据,在时机来临时,可产生前所未有的商业智能与其它益处。
但假如企业未仔细思考数据储存容量的选择,将可能导致系统运算效能降低,进而影响实时决策的制定以及策略方案的推行。然而,策略行动也许会失败,其原因可能是决策不够实时,或是治理阶层错认为自己对外部挑战与公司的能力有完整的了解。既使策略行动勉强持续,往往需要花费众多人力,来调整容量不适合公司商业需求的系统,这样不仅成本高昂也会令人感到挫败。
错以每个Megabyte的成本为重心
由于具体通联记录、交易数据与网络点选流等数据的快速增加,企业的数据每8个月就增加一倍。可想而知,采用数据仓库的企业会以每Megabyte的成本作为比较标准,选择成本最低的数据储存系统。厂商也提供超高容量的硬盘,满足企业日渐增加的数据需求,进一步刺激了此方式的发展。
但是,假如I/O的速度固定----I/O速度的增加不像储存容量提升一样快,增加硬盘的容量,只会让极需实时决策的企业难以快速存取数据。在这样的情况下,选择大容量所节省的成本则失去其意义,因为花了数百万美元的新系统无法快速存取数据,便无法达到原有的功效。
当然,除了磁盘容量之外,企业还有其它方式来解决效能的问题,例如分割、压缩、先后顺序排程、查询最佳化与进阶索引(advancedindexing)等,都能提供有效的协助。但若能搭配符合企业策略目标、运算能力与数据温度的储存功能,上述技术便能发挥更大的效力。
多重温度的数据仓储
要了解数据仓库的储存需求,必须先了解多温度数据仓库的概念。几乎在所有数据仓库系统中,数据具有不同的温度。温度高的数据是最近、最常用的数据,同时拥有许多使用者及应用程序进行存取多种应用。
随着需求降低,数据的温度也降低。温度较低的数据是历史数据,占据的数据仓库容量比较热的数据还大。但温度低的数据偶然会回温。例如,健康保险公司也许需要产生好几年的纪录,证实公司如何保护病人的隐私。
考量数据温度的容量规划
在了解多重温度数据后,企业可以进行容量的规划,其中要测量的项目包含:数据的汇总温度、系统容量、系统效能的需求与能力。此规划过程需要商业与IT专业人员紧密合作,确保IT人员了解各种数据日后可能的使用方式。
第一步是依据数据的存取频率与大小,将数据分类。企业一开始可将数据分类为主要策略数据、目前决策支持数据或历史性决策支持数据,最后再决定各类别的数据温度(测量数据温度的公式也包含了数据查询、更新与维护的效能需求)。
接下来,企业必须决定各类别数据的容量与效能需求,进而决定系统的需求。若采用较小的数据仓库来储存温度高的数据,目标则是兼顾成本与效能,让系统能提供支持重要决策的实时商业智能。大多数的企业会采用目前市场上最小的磁盘(如36GB,15KRPMdisks)与RAID-1备份系统。
相对地,假如大部分储存温度低数据的数据仓库,就比较不需要高效能,企业可以选择更高的单位容量(如73GB或146GB磁盘)。也有些数据仓库所储存的数据在温度上较平均,但不论是何种情形,在选择磁盘容量大小时,必须先测量各类数据的温度,并且找到一个汇总温度。
做个有数据智能的人
总而言之,数据仓库所含的数据,其价值在于其可支持决策的功能,非凡是现今商业环境中重要的实时决策。商业与技术的合作,再加上了解多重温度数据仓库的概念,是数据仓库是否能发挥应有功效的要害所在。