| 導購 | 订阅 | 在线投稿
分享
 
 
 

全面解析數據倉庫系統的建設過程和方法

來源:互聯網  2008-06-01 06:47:01  評論

數據倉庫系統的建設過程和方法不同于建設傳統的操作型處理系統的過程和方法,數據倉庫系統建設有兩個難點:一是如何保證數據質量,使得數據准確可信;二是如何構造應用體系,使之滿足不同角色用戶的分析決策需要。

受生産系統現狀的影響,如數據源的數據不完整、不一致,數據抽取時間點不能同步,本地網之間存在市場競爭及業務規則的差異性,各專業之間統計口徑的不一致等,數據質量問題客觀存在,數據質量問題的管控工作將貫穿數據倉庫系統建設的整個過程。數據倉庫系統應用來源于用戶需求,來源于開發商的商業理解,應用的開發和完善也受到數據質量的制約。因此,數據倉庫系統建設需要實現數據和應用的互動。

數據倉庫對數據質量的要求

數據倉庫對數據質量的要求總體上歸納爲:數據完整性,包括數據源是否完整、數據取值是否完整、維度取值是否完整等。數據准確性,包括數據源是否准確、編碼映射關系是否准確、處理邏輯是否准確等。數據核對准確的判斷是要麽結果一致,要麽不一致但原因是可解釋的。數據一致性,包括源系統之間同一數據是否一致,源數據與抽取的數據是否一致,數據倉庫內部各處理環節數據是否一致等。數據邏輯合理性,主要從業務邏輯的角度判斷數據是否正確,如帳目類型的金額、時長、次數的邏輯關系是否滿足等;月租費用不能出現通話次數、通話時長等。數據時效性,包括數據處理(獲取、整理、加載等)的及時性,數據異常檢測的及時性,數據處理回退的及時性等。

數據倉庫服務于經營決策,經營決策依據的數據應該是全面的、真實可靠的、有意義的。數據時效性如果得不到保證,就可能延誤了市場人員的分析,失去商機。

從數據倉庫的建設過程來看,它本身修複數據以提高數據質量的能力並不是很強,但是它能發現生産系統存在的一些數據質量問題從而提醒用戶哪些數據有質量問題,將數據問題反饋到業務支撐系統中,由後者做數據修正。

源數據質量現狀分析

傳統的業務支撐系統以滿足生産的業務處理爲目標,以內部管理需求爲出發點,各種支撐系統獨立設計,缺乏對企業整體業務流程的考慮,缺乏對資源的有效利用,在企業內部形成了許多信息孤島。主要體現在:

◆數據過于分散,手工處理數據和系統處理數據並存,數據格式多樣。

◆在數據模型上,實體語義定義、屬性定義、命名規則、編碼規則自成體系,難于與其他系統做匹配。

◆系統間存在同一實體數據記錄數不一致的現象,例如計費系統和九七系統中客戶數量不一致。

◆存在信息殘缺現象,沒有完整的統一客戶視圖。

◆在生産系統中存在需要拆分爲具有原子性的數據, 源數據的粒度太粗不能滿足分析要求。

◆在同一省公司,不同本地網出帳時不一樣,造成數據提供時間不統一。

數據質量的改進存在以下難點:

◆數據量大,數據格式不統一。

◆數據質量標准不容易制定。◎數據清理的邊界不容易定義。

◆生産系統不斷升級改造、人員崗位調整等因素容易造成前清後亂。

由于數據倉庫系統的數據來源于計費、營賬、客服、網管等多種業務系統,在各種源數據的整合過程中常發現不同系統中的數據不一致,同時源數據的質量問題比較突出。在數據倉庫系統建設初期數據質量不高在所難免,這需要在系統建設和使用過程中不斷進行修正和補充,從而逐步完善並最終解決系統的數據質量問題。

數據質量改進目標

目標是清理、標准化、提高和匹配現有數據。

通過數據整合,建立完整的、准確的、一致的統一客戶視圖,完善企業共享信息數據,並使企業共享信息數據服務于經營分析,爲生産系統的改進提供標准。 建立數據整合流程,實現流程定義、流程配置和流程管控。 建立數據整合的規章制度,落實數據質量的分級負責。建立起數據整合隊伍,使數據質量能夠得以持續改進。

數據質量改進是一個持續的過程,在系統建設及應用推廣過程中,需要針對不同重要程度的數據,制定相應的數據質量評測及接受標准。對于階段目標應按照「近期打基礎,中期見成效,長期促戰略」的原則制定。

數據質量改進方法

數據質量控制要從技術、流程和管理三個方面進行。

從技術層面上,生産系統存在的噪音數據、遺漏數據和不一致性數據,需要進行數據清洗;同時需要對源數據做稽核,如總量稽核和分量稽核。

在流程層面上,對于源數據的抽取要遵從一定的業務規則,數據的抽取和轉換需要很多步驟來完成,這就需要將過程流程化,並且流程可通過配置來實現。

在管理層面上,要求生産系統報送數據,按照「誰提供數據,誰負責」的原則由生産系統保證源數據的完整性、准確性、一致性、時效性。

應用推動數據質量改進

數據整合的目的是爲了支撐應用,讓經營分析系統真正能夠被用起來,核心的問題還是要找到應用的「驅動力」。對中國電信而言,滿足精確化管理、精確資源配置、上市公司信息披露要求是重點。

各地的具體情況不同,因此應遵循「因地制宜、總體規劃、分步實施、迅速受益、不斷完善」的原則進行應用推廣。不追求一步到位,建議以點帶面,通過「亮點」應用帶動相關數據質量整改。例如通過收入分析主題,可以發現量收不匹配的問題,促使生産系統檢查收入的計算規則。

這樣通過應用發現數據中存在的問題,並將問題反饋給生産系統;通過應用讓用戶看到效果,調動起用戶的熱情,並爲其樹立起信心;通過應用引起領導的重視,保證資源的有效投入;讓各級部門關注數據問題,讓責任部門有壓力也有動力。

數據質量改進案例分析

從實施中國電信6省營銷分析情況來看,數據質量改進普遍存在如何定義數據質量評價標准、如何實現數據質量管理的閉環過程、如何界定數據質量改進過程中各系統間的功能邊界三個難點問題。

如何定義數據質量評價標准——首先前端、後端、管控部門根據其專業對數據的不同要求,評價標准各有不同(如後端業務支撐部門對數據的要求是保障其系統的正常運行;前端業務部門對數據的要求是真實反映市場情況;管控部門要求數據要和財務報表保持一致)。數據倉庫建設也要結合實際情況,合理制定各階段數據質量評價標准,以保障系統建設的順利進行。

如何實現數據質量管理的閉環過程——在實際操作中,由于沒有形成數據質量的改進閉環,很容易出現「前清後亂」的情況,這需要制定一個完善的數據質量管理流程,以實現數據質量的持續改進。

如何界定數據質量改進過程中各系統間的功能邊界——數據質量問題牽涉到提供源數據的生産系統和數據倉庫系統,在質量改進中必然存在由誰來進行改進的問題,界定改進過程中系統間功能邊界也是數據質量管理的難點問題。

針對這三個問題,通常在各省基本采用以下方法加以解決

◆建立由管理層牽頭的數據管理機構,推動數據質量的改進工作

數據質量改進與管理的關系密不可分。在數據質量的管理上,需要建立一個由省公司主管部門牽頭,相關部門和集成商參與的項目小組負責數據質量標准定義和控制。責任人落實到各個分公司的生産系統業務主管或省公司各生産系統業務主管。如果發現有質量問題向各個本地網分公司進行通報,從而保障了數據質量改進的有效推行。

◆制定可操作的數據質量管理制度 管理部門需要和集成商一起根據實際情況制定可操作的管理制度,主要的管理制度包括,分階段定義的數據質量目標、數據評價辦法、數據管控流程、統一編碼、數據核對規則等。 ◎完善的數據質量控制流程是持續改進的基礎

在進行數據質量改進實施過程中,需要根據數據質量問題的特點制定一套數據質量控制流程,爲提高數據質量水平起到了關鍵的作用。

◆ETL集中監控和元數據管理的技術實現

自行開發了ETL集中監控模塊和元數據管理功能模塊。 在元數據管理中對數據和處理過程做了定義,用戶有了一個數據倉庫地圖。如果數據源或者抽取邏輯發生變化,用戶可以分析對其他元數據的影響。

通過ETL集中監控模塊可以對數據的整體處理流程進行定義;將數據質量評價標准以數據校驗程序化,並作爲流程中的一個環節配置到流程中;用戶可以對處理過程實施監控,對于數據異常能夠及時得到告警信息和錯誤報告。

通過以上措施,在數據質量上可以取得以下實際效果:

數據整合過程得以規範化,也減輕了維護人員的工作負擔。

各級人員對數據質量變得敏感,如果發現有質量問題向各個本地網分公司進行通報,從領導到具體責任人都關心數據質量問題,提高了相關人員對數據質量的重視程度和工作責任心。

數據質量穩步提高,例如通過對計費、九七、渠道系統客戶數據的對比、過濾、合並等方法,使得客戶資料逐步趨于完整和一致。

持續改進思路

通過數據清理,將逐漸形成完整和准確的企業數據視圖,爲經營分析和生産支撐提供可靠的數據來源。由于數據源系統會不斷升級,同時經營分析系統的數據模型也存在優化和發展。數據質量是一個持續改進、反複叠代、螺旋上升的過程。數據質量任重道遠,不可能一勞永逸,要作爲長期的任務來抓。 例如在客戶資料的清理上,可以按照「先大客戶,然後商業客戶,再次公衆客戶」,在客戶屬性上「先保證客戶消費屬性,後社會屬性」的思路做清理。對每一種客戶類型也可以劃分成幾個階段: 第一階段 整理客戶、用戶、帳戶三戶模型,通過歸並、篩選、補充等方法在現有生産系統上先建立起統一的客戶標識、帳戶標識、用戶(銷售品實例)標識;建立起客戶與用戶之間的對應關系、客戶與帳戶的對應關系,用戶與帳戶之間的對應關系。

第二階段 整理産品/銷售品,定義新的産品目錄表,按産品/優惠套餐定義銷售品目錄;將原有産品映射到新定義的産品目錄表中;將新功能映射成附屬産品;並定義出産品與産品實例對應關系、産品實例間的對應關系、産品實例與定價計劃和客戶協議之間的對應關系。

第三階段 補充客戶社會屬性,通過第一階段和第二階段建立起客戶消費屬性,再通過CRM系統和CSS系統補充客戶社會屬性,形成統一的企業客戶視圖。

數據倉庫系統的建設過程和方法不同于建設傳統的操作型處理系統的過程和方法,數據倉庫系統建設有兩個難點:一是如何保證數據質量,使得數據准確可信;二是如何構造應用體系,使之滿足不同角色用戶的分析決策需要。 受生産系統現狀的影響,如數據源的數據不完整、不一致,數據抽取時間點不能同步,本地網之間存在市場競爭及業務規則的差異性,各專業之間統計口徑的不一致等,數據質量問題客觀存在,數據質量問題的管控工作將貫穿數據倉庫系統建設的整個過程。數據倉庫系統應用來源于用戶需求,來源于開發商的商業理解,應用的開發和完善也受到數據質量的制約。因此,數據倉庫系統建設需要實現數據和應用的互動。 數據倉庫對數據質量的要求 數據倉庫對數據質量的要求總體上歸納爲:數據完整性,包括數據源是否完整、數據取值是否完整、維度取值是否完整等。數據准確性,包括數據源是否准確、編碼映射關系是否准確、處理邏輯是否准確等。數據核對准確的判斷是要麽結果一致,要麽不一致但原因是可解釋的。數據一致性,包括源系統之間同一數據是否一致,源數據與抽取的數據是否一致,數據倉庫內部各處理環節數據是否一致等。數據邏輯合理性,主要從業務邏輯的角度判斷數據是否正確,如帳目類型的金額、時長、次數的邏輯關系是否滿足等;月租費用不能出現通話次數、通話時長等。數據時效性,包括數據處理(獲取、整理、加載等)的及時性,數據異常檢測的及時性,數據處理回退的及時性等。 數據倉庫服務于經營決策,經營決策依據的數據應該是全面的、真實可靠的、有意義的。數據時效性如果得不到保證,就可能延誤了市場人員的分析,失去商機。 從數據倉庫的建設過程來看,它本身修複數據以提高數據質量的能力並不是很強,但是它能發現生産系統存在的一些數據質量問題從而提醒用戶哪些數據有質量問題,將數據問題反饋到業務支撐系統中,由後者做數據修正。 源數據質量現狀分析 傳統的業務支撐系統以滿足生産的業務處理爲目標,以內部管理需求爲出發點,各種支撐系統獨立設計,缺乏對企業整體業務流程的考慮,缺乏對資源的有效利用,在企業內部形成了許多信息孤島。主要體現在: ◆數據過于分散,手工處理數據和系統處理數據並存,數據格式多樣。 ◆在數據模型上,實體語義定義、屬性定義、命名規則、編碼規則自成體系,難于與其他系統做匹配。 ◆系統間存在同一實體數據記錄數不一致的現象,例如計費系統和九七系統中客戶數量不一致。 ◆存在信息殘缺現象,沒有完整的統一客戶視圖。 ◆在生産系統中存在需要拆分爲具有原子性的數據, 源數據的粒度太粗不能滿足分析要求。 ◆在同一省公司,不同本地網出帳時不一樣,造成數據提供時間不統一。 數據質量的改進存在以下難點: ◆數據量大,數據格式不統一。 ◆數據質量標准不容易制定。◎數據清理的邊界不容易定義。 ◆生産系統不斷升級改造、人員崗位調整等因素容易造成前清後亂。 由于數據倉庫系統的數據來源于計費、營賬、客服、網管等多種業務系統,在各種源數據的整合過程中常發現不同系統中的數據不一致,同時源數據的質量問題比較突出。在數據倉庫系統建設初期數據質量不高在所難免,這需要在系統建設和使用過程中不斷進行修正和補充,從而逐步完善並最終解決系統的數據質量問題。 數據質量改進目標 目標是清理、標准化、提高和匹配現有數據。 通過數據整合,建立完整的、准確的、一致的統一客戶視圖,完善企業共享信息數據,並使企業共享信息數據服務于經營分析,爲生産系統的改進提供標准。 建立數據整合流程,實現流程定義、流程配置和流程管控。 建立數據整合的規章制度,落實數據質量的分級負責。建立起數據整合隊伍,使數據質量能夠得以持續改進。 數據質量改進是一個持續的過程,在系統建設及應用推廣過程中,需要針對不同重要程度的數據,制定相應的數據質量評測及接受標准。對于階段目標應按照「近期打基礎,中期見成效,長期促戰略」的原則制定。 數據質量改進方法 數據質量控制要從技術、流程和管理三個方面進行。 從技術層面上,生産系統存在的噪音數據、遺漏數據和不一致性數據,需要進行數據清洗;同時需要對源數據做稽核,如總量稽核和分量稽核。 在流程層面上,對于源數據的抽取要遵從一定的業務規則,數據的抽取和轉換需要很多步驟來完成,這就需要將過程流程化,並且流程可通過配置來實現。 在管理層面上,要求生産系統報送數據,按照「誰提供數據,誰負責」的原則由生産系統保證源數據的完整性、准確性、一致性、時效性。 應用推動數據質量改進 數據整合的目的是爲了支撐應用,讓經營分析系統真正能夠被用起來,核心的問題還是要找到應用的「驅動力」。對中國電信而言,滿足精確化管理、精確資源配置、上市公司信息披露要求是重點。 各地的具體情況不同,因此應遵循「因地制宜、總體規劃、分步實施、迅速受益、不斷完善」的原則進行應用推廣。不追求一步到位,建議以點帶面,通過「亮點」應用帶動相關數據質量整改。例如通過收入分析主題,可以發現量收不匹配的問題,促使生産系統檢查收入的計算規則。 這樣通過應用發現數據中存在的問題,並將問題反饋給生産系統;通過應用讓用戶看到效果,調動起用戶的熱情,並爲其樹立起信心;通過應用引起領導的重視,保證資源的有效投入;讓各級部門關注數據問題,讓責任部門有壓力也有動力。 數據質量改進案例分析 從實施中國電信6省營銷分析情況來看,數據質量改進普遍存在如何定義數據質量評價標准、如何實現數據質量管理的閉環過程、如何界定數據質量改進過程中各系統間的功能邊界三個難點問題。 如何定義數據質量評價標准——首先前端、後端、管控部門根據其專業對數據的不同要求,評價標准各有不同(如後端業務支撐部門對數據的要求是保障其系統的正常運行;前端業務部門對數據的要求是真實反映市場情況;管控部門要求數據要和財務報表保持一致)。數據倉庫建設也要結合實際情況,合理制定各階段數據質量評價標准,以保障系統建設的順利進行。 如何實現數據質量管理的閉環過程——在實際操作中,由于沒有形成數據質量的改進閉環,很容易出現「前清後亂」的情況,這需要制定一個完善的數據質量管理流程,以實現數據質量的持續改進。 如何界定數據質量改進過程中各系統間的功能邊界——數據質量問題牽涉到提供源數據的生産系統和數據倉庫系統,在質量改進中必然存在由誰來進行改進的問題,界定改進過程中系統間功能邊界也是數據質量管理的難點問題。 針對這三個問題,通常在各省基本采用以下方法加以解決 ◆建立由管理層牽頭的數據管理機構,推動數據質量的改進工作 數據質量改進與管理的關系密不可分。在數據質量的管理上,需要建立一個由省公司主管部門牽頭,相關部門和集成商參與的項目小組負責數據質量標准定義和控制。責任人落實到各個分公司的生産系統業務主管或省公司各生産系統業務主管。如果發現有質量問題向各個本地網分公司進行通報,從而保障了數據質量改進的有效推行。 ◆制定可操作的數據質量管理制度 管理部門需要和集成商一起根據實際情況制定可操作的管理制度,主要的管理制度包括,分階段定義的數據質量目標、數據評價辦法、數據管控流程、統一編碼、數據核對規則等。 ◎完善的數據質量控制流程是持續改進的基礎 在進行數據質量改進實施過程中,需要根據數據質量問題的特點制定一套數據質量控制流程,爲提高數據質量水平起到了關鍵的作用。 ◆ETL集中監控和元數據管理的技術實現 自行開發了ETL集中監控模塊和元數據管理功能模塊。 在元數據管理中對數據和處理過程做了定義,用戶有了一個數據倉庫地圖。如果數據源或者抽取邏輯發生變化,用戶可以分析對其他元數據的影響。 通過ETL集中監控模塊可以對數據的整體處理流程進行定義;將數據質量評價標准以數據校驗程序化,並作爲流程中的一個環節配置到流程中;用戶可以對處理過程實施監控,對于數據異常能夠及時得到告警信息和錯誤報告。 通過以上措施,在數據質量上可以取得以下實際效果: 數據整合過程得以規範化,也減輕了維護人員的工作負擔。 各級人員對數據質量變得敏感,如果發現有質量問題向各個本地網分公司進行通報,從領導到具體責任人都關心數據質量問題,提高了相關人員對數據質量的重視程度和工作責任心。 數據質量穩步提高,例如通過對計費、九七、渠道系統客戶數據的對比、過濾、合並等方法,使得客戶資料逐步趨于完整和一致。 持續改進思路 通過數據清理,將逐漸形成完整和准確的企業數據視圖,爲經營分析和生産支撐提供可靠的數據來源。由于數據源系統會不斷升級,同時經營分析系統的數據模型也存在優化和發展。數據質量是一個持續改進、反複叠代、螺旋上升的過程。數據質量任重道遠,不可能一勞永逸,要作爲長期的任務來抓。 例如在客戶資料的清理上,可以按照「先大客戶,然後商業客戶,再次公衆客戶」,在客戶屬性上「先保證客戶消費屬性,後社會屬性」的思路做清理。對每一種客戶類型也可以劃分成幾個階段: 第一階段 整理客戶、用戶、帳戶三戶模型,通過歸並、篩選、補充等方法在現有生産系統上先建立起統一的客戶標識、帳戶標識、用戶(銷售品實例)標識;建立起客戶與用戶之間的對應關系、客戶與帳戶的對應關系,用戶與帳戶之間的對應關系。 第二階段 整理産品/銷售品,定義新的産品目錄表,按産品/優惠套餐定義銷售品目錄;將原有産品映射到新定義的産品目錄表中;將新功能映射成附屬産品;並定義出産品與産品實例對應關系、産品實例間的對應關系、産品實例與定價計劃和客戶協議之間的對應關系。 第三階段 補充客戶社會屬性,通過第一階段和第二階段建立起客戶消費屬性,再通過CRM系統和CSS系統補充客戶社會屬性,形成統一的企業客戶視圖。
󰈣󰈤
 
 
 
>>返回首頁<<
 
 
 
 
 熱帖排行
 
王朝網路微信公眾號
微信掃碼關註本站公眾號 wangchaonetcn
 
 
靜靜地坐在廢墟上,四周的荒凉一望無際,忽然覺得,淒涼也很美
© 2005- 王朝網路 版權所有