数据仓库体系包括数据仓库(data warehouse)、数据挖掘(data mining)和数据中心库(data repository)。下面详细介绍数据仓库、数据挖掘和数据中心库。
数据仓库
数据仓库就是面向主题的、综合的、不同时间的、稳定的数据集合,用于支持经营管理中的决策制定过程。也就是说,数据仓库是一个处理过程,该过程从历史的角度组织和存储数据,并能集成地进行数据分析。简而言之,数据仓库就是一个大的数据库,存储了该公司所有业务数据,例如,在线事务处理(oltp)系统中获取的综合数据,这些数据可能驻留在许多不同的数据源中。这些数据源可能是文档、层次型数据库、网络结构化的数据库、反向列表数据库、关系型数据库(例如sql server)或者更常见的由上述系统组成的混合系统。数据仓库可以辅助决策支持和在线分析进程(olap)应用程序。
数据挖掘
数据挖掘是从大型数据库或者数据仓库中发现并提取隐藏在其中的信息或者知识的过程。目的是帮助分析人员寻找数据之间的关联,发现被忽略的要素,而这些信息对于预测趋势和决策行为是十分有用的。数据挖掘的一般过程如图1所示。
图1 数据挖掘的一般过程
数据挖掘的一般过程包括五个步骤。(1)预处理数据:收集和净化来自数据源的信息,并加以存储,一般是将其存放在数据仓库中。(2)模型搜索:利用数据挖掘工具在数据中查找模型,这个搜索过程可以由系统自动执行,从底向上搜索原始事实以发现它们之间的某种联系,也可以加入用户交互过程,由分析人员主动发问,从上到下地寻找以验证假定的正确性。对于一个问题的搜索过程可能用到许多工具。例如,神经网络、基于规则的系统、基于实例的推理、机器学习、统计方法等。(3)评价输出结果。一般地说,数据挖掘的搜索过程需要反复多次,因为当分析人员评价输出结果后,他们可能会形成一些新的问题或要求对某一方面做更精细的查询。(4)生成最后的结果报告。(5)解释结果报告。对结果进行解释,依据此结果采取相应的商业措施,这是一个人工过程。
数据中心库
为了提供更成功的数据仓库和数据交易功能,数据元的集成是当前最重要的任务。当主要的数据转换服务规定可用,并且在线分析进程(olap)延伸到存储器的开放式信息模型之后,开放的设计检验阶段便开始了。这些重要的扩展是指将几个信息模型增加到数据中心库内,从而可给开发者提供更多可选的兼容产品和数据仓库系统的先进特性。
数据中心库提供了一个通用的位置,可以用来存放对象和对象之间的关系。通过使用一些软件工具,来描述面向对象的信息。数据中心库的体系结构如图2所示。
图2 数据中心库体系结构
创建数据仓库的原因是因为公司更加依赖于从信息系统中收集信息。因此,为了公司的运转就需要一个信息数据仓库。客户也希望能够经许可后访问公司的数据。数据仓库为商业分析家所提供的信息,在过去的业务数据库中是很难得到的。大多数情况下,公司会将历史数据从业务数据库中转移到备份系统中,这使得用户无法深入分析数据,难于做出有竞争性的决策。对更好地管理数据,保持数据的一致性,以及从企业的角度分析数据的需求引出了数据仓库的概念。数据仓库允许企业的各个部门之间共享数据,为企业更快、更好地做出商业决策提供更加准确、完整的信息。
数据仓库的实现最终由许多支持工具来完成,这些工具包括olap服务、数据转换服务、pivottable服务、英语查询服务等。一般地,设计和创建数据仓库的步骤是:确定用户需求、设计和创建数据库、提取和加载数据仓库。