你也许无法相信未来数据管理产品的功能。因此让我们从目前数据库的一些新特性着手。
一位年轻人因患某种相对罕见的流感而到医院就诊。这是检查医师本周遇到的第三个相似的病例,他需要更多的信息。困惑不解的医师取了血样并安排了其他一些程序。然后,他坐在计算机前面,(通过一个简单的图形用户界面)申请了一系列血样分析项目,并将结果与世界各地具有相似症状的患者进行比较。他还请求检索与该年轻人情况相似的患者的诊断、治疗和结果记录。然后,医师向疾病控制与预防中心(CDC)请求获得该病症发展的相关信息。几分钟后,医师就为其他患者找到了这种不寻常流感的治疗方法,该流感近期在污染程度较为严重的一些城市流行。
这种情景能在今日成为可能吗?有可能(假如我们已拥有正确的科学分析和仿真工具包),但要为此支付高级应用发展和系统配置所需的费用。数据管理早已发生变革以使类似情景切实可行:系统在更快、集成度更高、更易使用的同时增强功能、可扩展性和分布性。
本文中,我将介绍数据管理行业今后几年酝酿的产品以及推进DB2优先发展的动力。
复杂因素
当今的公司正面临不断增加的数据管理工作的挑战。越来越多的商务程序实现了自动化;更多的历史记录和分析工作被捕获并保存下来;新的规章制度正在改变商业模式。简言之,数据量在不断增加。用于处理孤立程序的专用系统必须连接起来以生成报表。例如,兼并和收购迫使商务程序(风险分析)和数据(客户信息)进行集成。不同的商业单位必须共享信息以获得新的收入增长点,而公司也必须与商业伙伴、供应商和客户交流信息。全球商务意味着管理分布式数据库并提供全天候的可用性。成本居高不下、经济停滞、竞争压力增加迫使企业提高运行效率,这通常意味着员工数量减少,同时管理的数据维护及访问任务的复杂性日益增加。
当数据管理所带来的挑战日益增加时,信息的重要性就被提升到前所未有的高度。各种形式的信息――数据库、电子数据表、文档管理系统、文本文件、网页、图表和图像――就成为企业共同的财富。因此,对数据库和其他各种来源的数据进行管理的需求,以及为非IT专家的商业用户提供更便捷的方式访问这些数据的需求都在日益增加。
更好的引擎
更多的数据需要存储、更多的业务需要处理、更多的分析需要完成,而且没有喘息时间,这些都期待着所有的数据管理要素继续改进。
载入和检索速度。研究具有更快的载入和检索速度的存储方法仍将打头阵。快速数据访问研究包括新型索引(例如,能够迅速适应新数据类型的通用索引结构)。采用多维聚簇加速访问多维数据,该技术已在 DB2 Universal Database (UDB) v.8.1中应用并将在后续的版本中继续使用。IBM 不断研发不同的存储方案以增加数据聚簇速度并加强对大对象的控制能力。
对大量数据的高效查询。解决海量业务数据高效处理和复杂查询的工作也正在进行中。例如,IBM Almaden 研究中心开发了一种新方法,它通过采样获得数据的随机子集并根据该样本估计或外推解答,使系统能够更快地为复杂查询提供近似解答。该技术已应用在DB2 UDB v.8.1 测试基础版中。采样将以更快的速度获得更好的统计信息,帮助优化和不同的设计顾问。此外,为提高带有大量子查询和复杂操作内容(例如和外部关联和反关联)的查询性能所做的相关改进工作也在进行中,有望在某些类型的查询上取得重大飞跃。
用以储存针对高频次查询的预先计算解答的具体化查询列表(MQT)可能被更广泛地采纳。目前 MQT 已经可用,并且正在扩展以储存更多的一般性查询解答。例如,DB2 v.8.1 能够储存关联结果,即使查询中并无集合体。查询引擎能够更好地自主决定何时使用 MQT 解答当前查询。用于提示系统何时创建 MQT 可能奏效的工具已出现。将来,数据库系统能够自主创建 MQT,并用于索引(如关联检索)和常用结果缓存中。当用于连接远程数据时(v.8.1已采用),MQT 将发挥更大的作用。
在大共享内存和非共享多处理器中,你将获得更多的分割数据(分区)选择和处理查询的新算法。
提高可用性。业务压力要求适应更多环境的高可用性。热备用系统瞬时切换已成为高端配置的标准,并将更为普及。总之,用户可以从一系列的“服务质量”承诺中选择在性能、可用性以及费用之间所需的权衡。同时,通过使用减少冗余硬件和备份信息,研究和开发人员将使那些权衡更容易实现。IBM 还在研究对存在的问题进行早期探测和自动更正。
分布式商务模型
关于电子商务的需要已有很多著述。如今,越来越多的公司使用Web服务器、应用、J2EE、.NET 和 XML 的复杂混合体在网上从事商务活动。在该环境内外获取数据通常需要通过诸如 JDBC 这样的接口实现数据访问,并将结果转换为 XML,然后将 XML 打包作为Web服务响应。目前,可以这种方式转移数据,但这确实有些令人乏味。将来,数据库会被更加直接地植入Web,使其成为Web应用基础架构的无缝元件。
数据管理和Web服务。数据库早已成为Web服务供应商,通过Web服务接口应答请求。不久它也将成为Web服务的消费者。也就是说,在查询过程中,它能够调用Web服务以返回所需信息。例如,在一次单步查询中,用户可以查找一个包含本地储存状况描述、首选供应商(从不同的本地列表)、可用性及价格信息的零件(通过Web服务发出向供应商的请求并返回当前信息)。DB2 早已显示出这种能力。目前,你不得不通过用户定义的函数在 SQL 语句中明确地调用Web服务,照此发展,你甚至可以将Web服务视为列表的别名从而能够透明地访问。应用开发和部署工具将随技术而发展。
XML支持。数据及处理集成的基础即是对 XML 的稳定性支持,包括支持 XML 作为基本的数据类型。XML Extender 允许用户保存和检索 XML数据,通过它DB2能够支持 XML。将来,IBM 会在引擎中引入更多的这种支持以优化访问。目前,通过对SQL 语言(SQL/XML) 的标准化扩展,可以将关系数据以 XML 文件的形式返回。由此,可将数据以电子商务业务中数据交换所需的类型返回,所交换的文档可在 RDBMS 中安全储存。
双语数据库。尽管 XML 显然将成为电子商务数据交换的标准,关系数据库并不会从此消失。仅支持 XML 的数据库并不能代替无处不在的关系系统,一部分原因是将全部数据进行转换所需的费用,另一部分原因是比 XML 数据库更为成熟的关系技术的出现。相反,未来的数据库能够为 XML 提供全面的关系能力和真正的本地支持。它们将在引擎中构建支持 XML 的存储管理和检索工具,而且既可使用 XML 语言查询即XQuery 又可使用 SQL。这种双语数据库可使用户按需要同时利用关系和 XML 的优势,以实施其最佳应用。IBM Xperanto 团队正在从事此项工作。
分布式数据:信息集成
你已经了解到 XML 和 Web 服务是如何帮助你处理复杂的分布式商务模型。它们提供了一种分布式数据的集成方法:在不同的应用或企业之间交换数据。不过,有时却需要更为精细的数据集成。
如今的企业通常是高度分布的,某个职能部门可能分散于好几个地点。某大型制药公司可能在几个不同国家都有研究实验室,实验室里的科学家们则需要共享实验和仿真信息。IBM 的数据管理开发团队就分布在四个国家的七个地点,并在世界各地其他一些地方也有相关的研究机构。开发者需要在这些不同工作地点之间共享所需的技术规范、代码、状态和信息。
独立的机构会选择不同的基础架构。在某些盛行兼并和收购的行业里,功能相同的部门却拥有完全不同的 IT 基础架构,这并不少见。业务运转通常仍需在这些不同的地区和系统间共享信息。
信息集成有多种机制,包括:
基于应用的集成。最常用的信息集成方法可能是:通过使用专门的应用实现对感兴趣的资源的硬连接访问,然后手动合并查询结果。应用集成框架、业务流程集成工作流程系统以及Web服务都为程序员提供高级提取服务,使其能够方便地从额外的来源获取数据。当然,合并数据(即执行关联)仍需手动编程。
集中化的数据仓库对于那些需要复杂分析的应用,许多公司选择将需要的数据“拉入”(从数据来源处复制)单独的数据仓库(数据中心)。这样做可以使SQL “全身心”地投入到分析中,并且也无需通过应用处理分散的数据。
数据联合造就虚拟数据库并不是所有的数据都能进入数据仓库。有时数据变化太快,有时该数据不为本企业所有(如归其商业伙伴或某一信息服务机构所有),有时该数据的格式不对,不能存贮到关系型数据库系统中或被其搜索到。这时 DB2 数据仓库和数据中心就可大显其道,IBM 杰出的技术可将那些各自为政的异构型分布数据源联合起来。数据联合让用户查询分布式数据时更为简便,就好像这些数据存贮在单一数据库中,同时应用也变得更简易并且拥有单一数据库的功能,而无需复制与维护成本。通过数据联合,应用可将底层数据存放到查询中,使这些功能不被再次执行(如果数据实际移动,这些功能会执行)。
数据联合在客户机应用与数据之间增加了一个部件――层,这个特殊的层使得性能达到平衡。在查询过程中,数据存贮在不同点(没有合并)将可能产生网络延迟。借超级优化功能之东风,数据联合使得多种应用间的数据集成更为高效简捷。
未来各种模型的融合信息集成很有可能成为大多数公司追逐的热点,你也许可以看见不同的技术成熟并且融合。某一特定集成问题的解决方案将涉及到数据仓库(用于可以存贮于关系型系统的关键数据)与数据联合(用于集成不适合数据仓库的数据)之间的集成。丰富的元数据设施简化了从不同的数据源中映射、清除数据,同时简化了将数据关联在一起的过程。