目前,我国的一些企业在数据仓库项目开发完成后并没有专门培训特定的数据仓库管理员,许多企业都是从开发团队里挑选一些人留下来执行维护任务,因为即使在通常情况下,经过简单的指导一般的技术人员也没有能力维护这个复杂的系统,更不用说出现突发事件应该怎么处理了。数据仓库的管理是不少企业数据仓库应用的软肋。要保证数据仓库系统的稳定性、可用性和高效性必须要有具备专业素养的数据仓库管理员来完成。
数据仓库管理员(Data Warehouse Administrator),如果取首英文字母简写为DWA,很多人会以为讲的是数据仓库架构师(Data Warehouse Architect),不过本文的主角是数据仓库管理员,而且主要讲述的是活跃在SQL Server平台上的数据仓库管理员。
数据仓库管理员主要负责维护企业数据仓库的完整性和可用性,包括数据的质量问题,确保数据仓库的正常持续运行。数据仓库管理员要管理的也许是容量上到5TB级的高可用性SQL Server 2005数据仓库,而且有遍布全球的有几十家分公司好几百名用户将其应用于商业智能和客户关系管理;也许只是被某公司总部十几个用户用作销售、客户和产品分析的300GB单服务器数据仓库。不管数据仓库管理员需要管理的是哪一种数据库,其最重要工作就是维护。
数据仓库系统每天都要进行大量的ETL操作,按照特定的时间间隔把数据抽取整合到数据仓库里。这个时间间隔也许是每隔一天、每隔一个星期或每隔几个小时。DWA的其中一个主要任务就是监测这些ETL处理进程,确保其正常运作。监测ETL处理进程的任务非常重要,因为这个进程在不断地为数据仓库供给数据原料。如果ETL处理进程运行不当,数据仓库里的数据就会过时;如果ETL处理进程运行到一半就卡壳了,那么数据仓库里的数据就会不完整;如果ETL处理进程运行出错,那么存入的数据也会不正确;而如果数据不正确不完整,那么根据这些数据而制定的所有决策都会受到影响。这就是为什么确保ETL进程由始至终正常运作的重要原因。
数据仓库管理员最好是向数据仓库主管汇报工作,不过有时候他们会向数据仓库架构师汇报。数据仓库管理员的关键任务包括以下几个方面(假设在SQL Server平台上运行):
· 监测每天(每星期)的ETL进程、数据转化服务工具包和SQL Server集成服务任务的运行
· 管理数据仓库的数据库,维护所有数据库服务器
· 管理分析服务立方体和服务器
· 管理报表服务和服务器(很可能是一个网络场)
· 管理数据挖掘模型和预测分析
· 管理数据仓库安全
· 制作数据仓库工作负荷和活动情况报表
· 向数据仓库批量上载新数据
· 安装补丁程序并执行更新升级
· 管理数据仓库端口
· 备份和检测还原所有数据仓库对象
· 与开发团队保持合作以部署代码
· 与业务团队保持联系以解决关于数据请求的问题
· 为终端用户组织培训班
· 帮助用户解决查询问题