这篇论坛专题(赛迪网技术社区)主要介绍了如何解决数据仓库与实时系统之间的交互问题,详细内容请大家参考下文:
在当今信息密集的环境下,对于数据仓库的需求日益增长。的确,众多的应用程序,如CRM、ERP、信息门户网站以及商务智能解决方案等,都要求得到数据仓库的支持。
数据仓库平台的实施,再与企业信息集成(EII)软件相结合,就可为组织的内外部信息提供更好的访问,进而促进更快、更好的决策制定。
Aberdeen 集团把EII定义为“在公司级或企业级上把离散数据源结合起来的软件,以全新的方式提交、分析或修改数据,为应用程序提供支持”,相对于传统的数据仓库,EII具有一些独到优点:
·在特定方式下传送实时数据的功能
·较早地将有价值的服务交付企业,降低项目风险
·灵活易变,以适应紧急业务需要
·明显的交接机制,可以清楚了解进展
切实的成本减少以及迅速的投资回报
虽然超出了本文范围,但其中必须予以重视的一点是:在数据仓库的创建及维护过程中,应当有一个数据质量策略。这一点对于任何增强数据仓库的EII解决方案来说也是同样要求的,选择有很多:最好的实施方案以便在源头对数据进行清理,或是启发式的工具,既可在转换时进行清理,又可在把数据仓库中的数据装载到数据集市时进行清理。
元数据管理是另一极为重要的方面,已被广泛认为是成功实施数据仓库的关键。数据工程师在整体数据模型的基础上,运用建模技术来设计数据仓库的结构,在建模时,应根据对数据仓库的业务需求来考虑应采用的数据工具。这里主要是指传统的ETL工具,它们可以迅速的传送大量数据,并且转换成可用格式以便装载到新创建的数据仓库中。
事实上,根据决策、分析或应用程序的需要将数据存入数据仓库以备实时访问时,放入所有的数据并没有多大意义,这就是EII软件为什么会出现的原因,特别是在模型驱动的解决方案中。通过对数据建模,可以得出数据架构的结论,以决定载入何种数据以及在特定方式下将用到何种数据。最好解决方案能有一个元数据库,以及允许建立大量数据模型的能力。这些模型中有一个是用来创建数据仓库的,而其它的则是用于驱动数据返回引擎的,以便创建某种企业视图。这意味着,最好是既拥有数据仓库以存储历史资料和保护运作系统,又具备根据需要及时访问数据仓库以外数据的能力。
既然对企业随时所需的各种信息进行预料是不可能的,那么当需要时对整个组织的各种数据进行快速访问的能力就显得至关重要了,而对于业务用户的信息需求进行快速建模的能力,可以使公司适应快速变化的业务需求。
按需时实数据访问的体系结构
此钟结构基于下述要求:
·一个中心数据库,以便为所有可用信息资产提供在线目录
·一组全面的、集成的信息视图
·为决策所需信息提供简便的返回方式
完善的应用程序、门户网站产品、报告及商务智能工具、对迅速生成特定报告所需信息的快速建模及重建模能力
可满足现存报告及分析流程的灵活环境
对多变的业务需求的快速支持,同时需考虑到高度的可用性、性能及可伸缩性
从旧系统、关系数据库、实时供给以及其它来自供应链伙伴的数据源中直接抽取数据的能力
通过有选择地将那些不需实时的数据转移到数据仓库,使运作系统减轻负担
另外,任何的实时数据管理系统还应该符合以下的关键标准:
水平可伸缩性,可通过另外增加软硬件资源来解决数据量增长及指标增加问题
基于标准的组件,用于提供开放的、适应未来发展的基础设施
适应能力强的功能及性能
向基于“购买而非自建”解决方案的市场领先者购买的组件
实时数据管理在数据仓库和其它系统之间搭起了桥梁,可以随时根据需要抽取数据生成集成视图,它跨越了数据仓库、历史记录、快照数据和实时运作数据,以便时实地回答特定问题和监视业务性能。
这种体系结构可以有选择地将某些报告功能转交给数据仓库,并为分析及决策提供报告工具和商务智能工具,进而提高运作系统性能。对于时间敏感型的动态数据则可在需要时随时进行时实访问。
数据仓库的数据建模及装载
全部数据源包括关系型、时实、旧系统、EAI工具、ASCII文件等,在建模时作为输入数据源,另外,转换和处理在建模时则只是逻辑上进行数据清理,而不需对数据进行物理操作。
在此阶段,可以看作存在着一个巨大的虚拟关系数据库,其中不但存储了所有的运作数据,还存储了全部经过转换、清理及过滤的数据。这个虚拟数据库可用于向数据仓库填充数据,或向某个在数据源头用来进行数据清理的ETL工具提供数据。
下述几个重要措施是必需的:
1. 分析数据需求。确定所需的数据以及恰当的连接器。
2. 对物理数据和虚拟数据进行建模。物理数据源包括数据仓库,而虚拟数据库即是指跨越各种物理数据源的集成视图(其中一个虚拟数据库可能会类似于数据仓库,以助于装载数据)。
3. 配置。配置连接器并启动它们,为虚拟数据库命名,并指出实施物理数据源的连接器,然后激活虚拟数据库。
4. 将数据装入数据仓库。用一个简单的程序来访问虚拟数据库并将数据装入数据仓库,也可以用专门的ETL工具来填充数据仓库。
5. 跨越数据仓库和其它系统访问数据。数据仓库既是原始和运作数据的虚拟数据库,又是连接了物理数据仓库与原始及运作系统的虚拟数据库,因此汇总资料和明细资料将可同时返回。
最终,在技术部门真正装载数据之前就可以对数据仓库进行访问了,就像数据已经存在于数据仓库中一样。许多数据源与数据仓库是完全不相容的,通过对EII的结合运用,就可允许它们保持原始存储形态,同时又能作为虚拟部分加入到数据仓库中来。
传统的数据仓库方法提供了数据快照,这是通过定期的从历史信息中抽取数据实现的,以反映数据的变化情况。数据仓库须存储历史明细数据以支持分析和预测,另外,数据仓库的设计应支持高效的特定查询,支持用户从报告中钻取明细数据,数据仓库对数据的获取是通过每天、每周及每月的装载,并且要对明细数据在线维护大约两年的时间。由于大多数变化都出现在EII工具的抽象数据模型内,因此极少或根本不用对所需的转换程序进行重编码。当源系统中增加(或修改)了产品、客户、地区时,数据仓库与EII一起使所发生的变化达到最小,这种活动对装载及转换流程、数据库设计、报告或用户界面等影响极小。数据仓库还将支持统计应用,可对明细数据进行抽样和挖掘。
数据结构以及模型中的版本都应同时保留原版和修订版,这可确保那些基于旧数据结构(模型)的报告当结构更新时依然得到支持。
具有图形用户界面的数据建模工具将与数据仓库快速、高效的设计和配置相结合,向导驱动的流程(元数据驱动的数据源定义、数据仓库的图形化设计、图形化的映射和转换设计)将引导用户完成数据仓库建立的设计工作。这有助于可视化地决定合适的结构、关键元素和数据库的优化设计,同样,有助于设计高性能的数据仓库的空间建模技术也将得到运用。
安全控制特性可由用户激活以限制访问,这样可以对不同的用户组赋予相应权限以访问不同类型的数据,各个用户/组对数据(敏感信息)的访问还可以进一步限制到表、列或记录的级别。
元数据库
拥有元数据库是极为重要的,这是对技术信息和业务信息两者进行维护的统一的元数据管理工具,这些元数据将关系到整个企业、整个数据仓库以及数据集市的数据内容和结构。
元数据包含的信息有数据源、数据定义、数据转换、数据模型、装载规则、用法数据等等,元数据通过一组表存储起来,用户可通过相应的Web界面进行查询,既可通过查询也可通过报告工具来提交元数据。
元数据库也包括了版本控制特性,允许整个企业的多个群体来开发和维护元数据。元数据管理对于当今的企业数据仓库和Web配置的应用程序是一个很重要的组成部分,元数据定义了应用程序的业务结构及其与其它企业系统之间的关系。元数据库为整个企业提供了一个共同的管理视图,是获取、维护、开采分散的元数据的基础,它减少了应用程序开始和维护成本,并帮助企业从已有的信息资产中获取更多价值。
数据建模工具
建模组件与元数据库密切相关,它可用来定义数据结构,并可为这些结构定义表(实体)和列(属性),另外还有关键字、数据字段长度、数据类型等等,这个组件在从概念、逻辑到物理设计的整个过程中被广泛使用,定义了大多数的物理参数,从而减少了DBA的工作量,也减少了生产时间。
元数据建模器所采用的技术是DBA和数据工程师都极为熟悉的,基于对象管理组(OMG)为元数据所建立的标准,称为元对象工具(MOF)和XML 元数据交换(XMI)。
报告和分析工具
一个功能强大的企业报告工具应当能支持复杂的、高质量的报告创建,并且对于整个企业以及Internet来说,都不应受到数据格式化的限制。它在格式化数据方面提供了完美的灵活性,支持多种报告类型,比如表、矩阵、分组报告和图形等,以及对这些格式的任意组合。用户可将多个查询合并到同一个高质量的报告中,并且可以访问任意的信息源。
在线分析处理(OLAP)特性将使用户可对数据进行分析以获得透视能力,并在此基础上采取行动。用户可以访问、计算及共享信息,以便跨越产品、市场、职权、流程、时期和情景等进行绩效检查、质量评判以及因果分析。
信息门户网站
信息门户网站为整个公司的内网用户管理报告出版及订阅,另外,既然已建起了信息访问平台,并且具备了时实信息,配置相应的门户网站应用程序必然轻而易举。