1 引 言
管理就是决策,决策需要信息。决策过程实际上就是一个信息输入、信息输出及信息反馈的循环过程。商业智能的目的就是为了辅助决策,让管理者从拍脑袋做决策到依据数据和事实做决策。这些依赖的数据和事实来源于两个方面,一是来源于竞争环境,这包括内部信息源(主要是存在于决策主体的经验信息)和外部信息源(主要是决策主体和咨询机构从社会中通过各种渠道获取的信息),另一方面来源于企业多年信息化建设中积累的数据库信息。对于第一个方面,信息的非结构化特征决定了其随意性和不确定性,这是决策理论中研究的问题,而对于第二个方面的信息,即使用存在于数据库中的信息来辅助决策的问题,就是可以通过商业智能从技术上来得到很大程度的解决。
本文将数据挖掘算法封装成相应的Web服务,然后利用面向服务的架构组建企业的商业智能系统,从而为用户提供灵活高效健壮高敏捷性的信息系统,继而帮助企业改善自身运作提高运营效率。
2 商业智能及其体系结构
2.1 商业智能简介
商业智能(Business Intelligence,BI)是商业数据海洋中的指南针,它从历更数据中提取信息,搞清楚经营状况,通过信息的分析获取对经营决策有价值的知识,从而帮助用户对自身的业务经营做出正确而明智的决定。商业智能过程实际上包含2个层次:第一个层次是在整合系统数据的基础上提供灵活的前端展现,例如,通过直方图等形式表现来自销售管理系统的地区销售情祝报表,对复杂的计算则通过计算机的手段辅助完成;第二个层次是数据库中的知识发现(Knowledge Discovery in Database,KDD)。现代许多商业、政府和科学数据库的爆炸性增长已远远超出了能够解释和消化这些数据的能力,需要新一代的工具和技术对数据库进行自动和智能地分析,这些工具和技术正是知识发现。知识发现的主要技术构成是数据挖掘(Data Mining,DM)。它是从大量的数据中挖掘出有用的信息,即从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中发现隐含的、规律性的、人们事先未知的,但又是潜在有用的并且最终可理解的信息和知识的非平凡过程。
按照智能应用的范围,商业智能系统可以产生客户智能、营销智能、销售智能和财务智能等。这些智能的产生包括3个部分的具体功能:信息处理、分析处理和知识发现。前两个部分是商业智能的前端展现对象,第3个部分则属于数据挖掘层次。信息处理包括查询和基本的统计分析,如使用交叉表、图表或者图进行报表的展示。分析处理是支持基本的OLAP操作,如上钻、下钻、旋转、切片和切块等,其表现形式也以报表为主。但请注意的是这里的统计和报表与基于数据库的统计和报表有本质的区别,在BI系统中,报表的数据来源不是关系型数据库,而是从许多来自不同的企业运作系统的数据中提取出的有用数据,同时对这些数据进行清理以保证数据的正确性,然后经过抽取、转换和装载(即ETL过程),合并到一个企业级的数据仓库里,再经过联机分析处理(OLAP)而获得的企业数据的一个全局视图。同为报表,BI系统中的报表往往有很强的自定义功能(如可以对某一个维度随意上钻和下钻)和很强的表现能力(如可以在不同的图形表现形式上随意切换)。
2.2 BT体系结构和SQL Server 2005的商业智能构架
BI作为一种数据的提纯工厂,其过程以来自业务系统的数据为基础,经过数据仓库技术的处理,整合数据并将其转化为有序的信息;这些信息经过联机分析处理(OLAP)技术的分析后,可以表达出数据内部的各种关联,这是对商业管理活动有很大帮助的知识;经营活动中很多时候还要进一步明确数据中隐藏的规则,这要靠数据挖掘技术的帮助,最后要采取行动时,可以用模型库和方法库等决策支持的相关技术来辅助决策;而决策和行动的结果又可以作为业务数据反应在业务环境中,为以后的决策提供数据源支持。如此循环往复,商务活动就在BI系统的支持下变得智能了。把商业智能系统工作的这一过程进行技术上的抽象,可以把商业智能的体系结构分为源数据层、数据转换层、数据仓库(数据集市)层、OLAP及数据挖掘层和用户展现层。这几层通过密切的协作完成商业智能的功能。
实现商业智能应用有4个十分关键的环节,包括数据源、ETL过程、数据仓库及其应用和BI前端展现。这里要注意的是BI的应用必须基于数据仓库技术,数据仓库是商业智能系统的基础,是面向主题的、集成的、稳定的和随时间不断变化的数据集合。ETL过程,即抽取(Extraction)、转换(Transformation)和装载(Load),负责将业务系统中各种关系型数据、外部数据、遗留数据和其他相关数据经过清洗、转化和整理后放进中心数据仓库。图1所示的结构是一种具有层次关系的体系结构。实际上,这种结构是极为稳定的,这是自然界的普遍规律。基于数据仓库的商业智能和数据挖掘采用这种结构已经通过实践证明是可行的,同时这一结构图也是较为通用的,包括SQL Server 2005在内的很多数据挖掘和商业智能工具都是基于此图所描述的过程来实现其功能的。
2.3 SQL Server2005数据挖掘体系结构及其过程模型
从广义上看,数据分析可以分成验证型分析(Verification-Driven Data Analysis)和挖掘型分析(Discovery-Driven Data Mining)。其中,多维查询和oU啦可以非常方便地观察系统地实际情况,以便确定某种假设是否成立,因此属于验证型的范畴。数据挖掘是在大量数据中由未知去发现知识,因而属于挖掘型分析的范畴。
从商业智能的方面来看数据挖掘,BI的范围应该包括3个层次,分别是报袁、分析和挖掘,其中报表是解决“现在是怎样的问题”,分析是解决“为什么会这样的问题”,而挖掘是解决“以后会怎样的问题”。对于SQL Server来说,报表实现的组件是SSRS,分析实现的组件是SSAS,而数据挖掘则是通过其Data Mining组件来完成的。
总的来说,DM和OLAP都是数据分析工具,但是它们处理的问题不同,数据分析的深度不同。DM是一种挖掘性质的数据分析,它能够自动地发现事物间潜在的关系和特征模式,并且可以利用这些特征模式进行有效地预测分析。OLAP是一种验证性质的数据分析,用户提出问题或者某种假设,OLAP负责从上到下、由浅到深的展现问题相关的详细信息,供用户判断提出假设是否合理。DM和OLAP相辅相成,DM能够发现OLAP不能发现的更为复杂和细致的问题,而OLAP能够迅速地告诉我们系统过去和现在是怎样的,从而能够帮我们更好地理解数据,加快知识发现的过程,并能迅速验证DM发现的结果是否合理。3 面向服务的架构和Web服务
复杂性是信息技术(IT)必须面对的现实。然而,如果所有应用都使用公共的编程接口(Programming Interface)及互操作协议的话,那么将有助于IT降低复杂性,已有功能也更容易被再次利用。公共编程接口统一了应用的使用方式——通过设立这样一种公共编程接口,我们将能更轻松地完成对现行IT基础设施(IT infrastructure)的替换和更新。
面向服务的结构(Service-Oriented Architecture,SOA)就是这样一种设计方式,它指导着业务服务(Business Services)在其生命周期(从构思开始,直至停止使用)中包括创建和使用的方方面面。SOA也是一种定义和提供IT基础设施(IT infrastructure)的方式,它允许不同应用相互交换数据、参与业务流程(business processes),无论它们各自背后使用的是何种操作系统或采用了何种编程语言。SOA可被看作是一种构建IT系统的方案,它将业务服务作为协调IT系统与业务需求的关键组织原则。SOA是利用“面向服务开发(Service-Onented Development)”之优点的最好方式。与之前的IT系统关注于技术本身,让人们适应技术不同,面向服务(Service Orientation)通过将技术更自然地贴近于需要它的人们,实现了项目成本的缩减和项目成功率的提高。面向服务开发与先前开发方法的主要不同在于:它使你可以专注于业务问题本身的描述,而先前的开发方法则要求你更关注特定执行环境技术的使用,面向服务开发比先前技术更面向服务问题的解决。
SOA的实现方式不止一种,用Web服务作为实现SOA的技术平台具有其他形式不可比拟的优势:Web服务是广泛普及的、简单的和平台独立的。
4 基于SOA的BI整合应用框架
完全基于SOA架构。整个系统不仪将物理世界与计算机世界有机地联系在一起,还将网络边缘的硬件、嵌入式软件及中间件与企业系统连接起来,使得由分布物理事件所形成的数据能够传递到现有的企业或监控系统中,从而改进并提高了现有系统业务流程的集成与整合,给系统业务的重构带来了稳定高效灵活的解决方案,从根本上改变了目前信息系统难以随需而变的困境。整个平台使得传感器网络和RFID设备等数据采集设备对用户高度透明,并提供对外高度抽象的设备接口和数据接口,具有良好的开放性。这一切使得对系统软硬件的投资可以在各种实际应用中获得最大化的收益,系统的利用率和可重复使用性将大大提高。
5 结束语
SOA可以看作是B/S模型、XML/Web Services技术之后的自然延伸,它能够帮助人们从新的高度理解企业级架构中的各种组件的开发、部署形式。我们将SOA与数据挖掘进行有机地结合,可从根本上改变现有IT系统构建中诸多困难,使开发人员可以从容地面对物理世界和企业业务频繁的变化,帮助企业从现有的历史数据中发现自身运作的规律,发现有益的模式和知识,从而改善企业相应的经营模式和提高企业的运营效率。