數據倉庫應用具有從多個分散的部門級系統中捕捉大量共享信息的能力。它們可以將機構的原始數據有效地轉化為有用的知識信息,於是這些知識信息就可以被用來進行戰略決策支持,從而提高企業效益。在一個先進的數據倉庫應用的幫助下,企業決策者可以從質量、區域收入和產量等基本面上對企業性能進行跟蹤,並基於這些可靠的信息采取快速、明智的行動。
本文將闡述建立數據倉庫的八條規則,尤其是如何建立第一個數據倉庫。實際上,對於如何建立一個成功的數據倉庫,現實中不存在也根本不可能存在一個涵蓋萬千、放之四海而皆準的"寶書"。幾乎可以肯定的是,在建立第一個數據倉庫的時候,用戶肯定會犯錯誤,這是不可避免的。本文的規則的意義僅僅在於,幫助用戶避免一些已知的缺陷。而對於那些不可避免的必然錯誤,這些規則會盡可能地幫助用戶減輕可能帶來的危害。
規則一:從小處著手
不要一上來就要完成一個大規模的企業範圍的數據倉庫,這樣會使用戶陷入邏輯、行政和財政的泥沼中而不能自拔。
數據倉庫不是越大越有效,較小系統的價值對機構來講可能會很大。例如,用戶可以將第一個數據倉庫的實現定位於一個特定的部門和應用或者業務線。初始時采用規模向下的數據集市可以降低開發成本,縮短實現周期,並有助於為未來的數據倉庫的發展培訓IT人員。
規則二:向大處考慮
即使在建立第一個面向特定部門或特定應用的數據集市時,也一定要保證現在所使用的數據模型能夠向將來企業範圍的數據存儲擴展,以便於將來其他數據集市和戰略數據倉庫的實現。
必須在部門之間進行一致性數據定義,並使每個人都遵守。例如,如何構成一個"銷售體系"?是預約登記、開發票還是付款?在這些定義上的一致性協議會使以後部門數據的聯合成為可行、有效。
規則三:定義目標和量化收益
在項目開始實施以前,用戶必須明確回答幾個問題。我們為什麽要建立一個數據倉庫?項目的目的同我們機構的任務一致嗎?哪些問題是我們致力於要去解決的?要考慮及時推入市場、質量和客戶滿意度等因素嗎?
在進行了目標問題的認知以後,應該認清哪些是關鍵性的影響成功的因素,以便於在解決方案的實施進程中進行跟蹤。例如,收益和運輸單位(units shipped)可能是對喪失市場份額產生作用的兩個影響因素。
在確立了這些關鍵的成功影響因素以後,用戶就可以在應用中設置"自動水開標記或警報"。這些警報保證對底層產生直接影響的最重要數據是清晰可見的,便於及時采取行動。定義了成功的影響因素後,在使用數據倉庫時就可以檢測到威脅成功的因素。
一旦這些基本目標確立以後,下一個基本要求是對來自數據倉庫的可預期的收益進行量化。只有在做了這些工作以後,管理層才會有據可依地判斷一個數據倉庫的成功與否。
量化的目標不一定非是數字或金融表達式,它們只需要明確、有意義即可。
許多機構都采用金融衡量標準,比如ROI,來對收益進行量化。IDC對62家數據倉庫的實現進行研究表明,在數據倉庫項目上的總體ROI為401%,平均回報時間為2~3年。數據集市的ROI經檢驗為533%。其他類型的收益衡量標準還包括成本節約程度以及可獲得的能夠進行衡量的效率。
規則四:取得最高管理層的支持和認可
數據倉庫中涉及到信息的共享,這必然會由於部門數據所有者的人為因素造成失控。在數據所有權和數據存放等問題上的內部紛爭,很容易給數據倉庫帶來進程上的滯延和失敗。
這種數據上的"割據"必須在項目的開始就立即加以解決。理想的情況是,公司最高管理層的一個或者幾個成員能夠為數據倉庫進行部門或部門之間的對象設置。管理層的支持有助於打破各個部門之間日益嚴重的由於數據保護而形成的行政壁壘。
在整個過程中,終端用戶也是一個不可忽視的因素。如果那些首先進行數據輸入的人員不了解數據倉庫的意義,用戶很容易地陷入一攤"垃圾"數據中。用戶用來決策的數據應該同最初輸入的數據一樣好。
規則五:等待完美不會帶來收益
如果已經進行了目標定義,明確了關鍵的成功影響因素,並且數據倉庫項目的規模得到了合理的控制,那麽就不要永久地等待下去,因為這樣下去什麽也不會得到。盡快行動起來,開始分享數據倉庫投資帶來的回報。用戶不應拘泥於所謂的"完美"不放,一旦客戶開始訪問到新數據倉庫中的信息,研究結果展現在他們的面前,他們很快會發現自己需要更多的信息和更詳細的細節。
研究表明,數據倉庫以每年大約40%的速率在增長。隨著用戶需求的發展,應用能夠不斷修改與之適應。這種方式是一個"壘磚"的方式,邁向數據倉庫的第一步路就是快速實現它。
規則六:選擇能夠與用戶需求匹配的系統
如上所述,要認識到數據倉庫將可能以每年遞增40%或更多的速度增長。同時要認識到,用戶和職員不可能非常準確地預料到系統上的初始和未來負載的情況。這種固有的精確度的缺乏就需要軟件和硬件具有可伸縮性,能夠容納更多的客戶、進程和存儲的發展。
這種性能必須在設計的開始就考慮進去。否則,就可能因設置過大而超出系統的適用範圍,白白將投資浪費掉。
規則七:要確保數據倉庫工具協作使用
盡管數據倉庫市場已經進入了第二代,它仍然是不成熟的。其表現為過多過剩的產品,有太多的廠家而無明確的領導者,導致了行業上的競爭,使購買決策變得困難。這使得那些想對來自多廠家的數據倉庫工具和應用進行集成的廠商感到惶惑不知所措。同其他信息技術領域不同,如TCP/IP對於網絡,RISC/UNIX對於企業級計算,SMTP對於消息傳遞,HTML和Java對於Web等,可靠的、被廣泛接受的數據倉庫標準還不存在。
在集成多廠家的數據倉庫工具時,IT人員由於缺少了明確定義的標準的指導,而使數據倉庫的實施從一開始就處於風險中。一些大一點的廠家通過將他們的產品與其他廠家的產品進行捆綁來降低風險,並做一些集成。
規則八:關系的價值
在建立第一個數據倉庫時,選擇正確的合作夥伴是很關鍵的,包括顧問、分銷商以及軟件和硬件的廠家。
選擇合作夥伴一是基於其能力,二是基於其具有長期同舟共濟的願望。要自問一下,這個廠家在初始實現以後是否還會積極地幫助我解決面臨的問題?這個廠家現在在我的機構中的投資是什麽?隨著我們的項目的繼續推進,情況會是什麽樣子?
當困難接踵而至的時候,對運作中的其他方面不感興趣的合作夥伴將很難與其保持真誠的合作。
當尋找能夠維持長期合作關系的合作夥伴的時候(通常是行業內已經建立關系的),一定要註意自己內在的感受。例如,在對行業中某個公司的一位資深顧問進行考察,以探察其對特定應用領域的數據集市的實現經驗時,一定要保證能夠與之合作。想要取得成功,就必須能夠與所有的廠家和合作夥伴進行有效的合作和交流。
上面列出的大多數規則集中在人的問題上:計劃、定義、協調、實踐、完美。這一點也不出人意料,因為數據倉庫的建立就是為了一件事情:幫助人們實實在在地更好地進行決策。
在過去,人為"機器"服務。人按照機器所需要的格式裝載數據,使用機器所定義的查詢類型來檢索信息。而今,數據倉庫打破了這種傳統關系。用戶成為機器的主人,而不是它的奴隸。但是,自由就意味著責任。獲得自由的人必須要學會全面地考慮問題,設立目標,協商取得一致,深思熟慮再做選擇,然後果斷采取行動。