福建省邮电规划设计院 张金铭赖大进
随着各电信运营企业不断加快业务运营支撑系统(BOSS)、网管系统、财务系统、办公自动化系统(OA)和客户服务系统等企业IT支持系统的建设步伐,企业内部积累了大量的客户行为和企业运营的历史数据,这些海量数据在原有的操作型数据库系统中难以提炼并升华为有用的信息,使得信息资源无法在更大更深的范围内共享和利用。电信运营企业信息化建设需要跨越各个业务运营系统,建立综合的信息资源平台,利用数据仓库技术,深层次地挖掘、分析当前和历史的生产业务数据以及相关环境数据,自动快速获取其中有用的决策信息,为企业提供快速、准确和便捷的决策支持。
一、数据仓库系统的特点
数据仓库是一个面向主题的、具有集成性和相对稳定性、反映历史变化的数据集合,用于支持治理决策。数据仓库面向分析型数据处理,它不同于企业现有的操作型数据库;数据仓库是对多个异构的数据源的有效集成,集成后按照主题进行重组,并包含历史数据,而且存放在数据仓库中的数据一般不再修改。
1.面向主题
操作型数据库的数据组织面向事务处理任务,各个业务系统之间各自分离,而数据仓库中的数据是按照一定的主题域进行组织的。主题是一个抽象的概念,是指用户使用数据仓库进行决策时所关心的重点方面,一个主题通常与多个操作型信息系统相关。
2.集成性
面向事务处理的操作型数据库通常与某些特定的应用相关,数据库之间相互独立,并且往往是异构的。而数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证数据仓库内的信息是关于整个企业一致的全局信息。
3.相对稳定性
操作型数据库中的数据通常实时更新,数据根据需要及时发生变化。数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查询,一旦某个数据进入数据仓库以后,一般情况下将被长期保留,也就是数据仓库中一般有大量的查询操作,但修改和删除操作很少,通常只需要定期加载、刷新。
4.反映历史变化
操作型数据库主要关心当前某一个时间段内的数据,而数据仓库中的数据通常包含历史信息,系统记录了企业从过去某一时点(如开始应用数据仓库的时点)到目前的各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和猜测。
企业数据仓库的建设,以现有企业业务系统和大量业务数据的积累为基础。数据仓库不是静态的概念,只有把信息及时交给需要这些信息的使用者,供他们做出改善其业务经营的决策,信息才能发挥作用。而把信息加以整理归纳和重组,并及时提供给相应的治理决策人员,是数据仓库的根本任务。
二、数据仓库系统的构成
一个典型的企业数据仓库系统通常包含数据获取层、数据存储层和数据访问层三层:
1.数据获取层:对BOSS、MIS、网管和其它外部数据源中的数据进行抽取、清洗、转换,并加载到数据仓库。
2.数据存储层:实现对数据仓库中数据和元数据的集中存储与治理,并可根据需求建立面向部门和主题的数据集市。
3.数据访问层:通过多样化的前端分析展示工具,实现对数据仓库中数据的分析和处理,形成市场经营和决策工作所需要的科学、准确、及时的业务信息和知识。
三、数据仓库的要害技术
1.OLAP技术
当今的数据处理大致可以分成两大类:联机事务处理OLTP(on-line transaction processing)、联机分析处理OLAP(On-Line Analytical Processing)。OLTP是传统的操作型数据库的主要应用,主要是基本的日常事务处理,例如计费帐单交易等。OLAP是数据仓库系统的主要应用,侧重决策支持,支持复杂的分析操作,以求剖析数据,使用户能从多个角度、多侧面地观察数据库中的数据,从而深入理解包含在数据中的信息。
OLAP的目标是满足决策支持或者满足在多维环境下特定的查询和报表需求,它的技术核心是“维”(dimension)这个概念,通过把一个实体的多项重要属性定义为多个维,使用户能对不同维上的数据进行比较。
OLAP的基本多维分析操作有钻取(roll up和drill down)、切片(slice)、切块(dice)以及旋转(pivot)等。钻取是改变维的层次,变换分析的粒度,它包括向上钻取(roll up)和向下钻取(drill down)。切片和切块是在一部分维上选定值后,关心度量数据在剩余维上的分布。旋转是变换维的方向,即在表格中重新安排维的放置(例如行列互换)。
OLAP有多种实现方法,根据存储数据的方式不同可以分为ROLAP、MOLAP、HOLAP。ROLAP表示基于关系数据库的OLAP实现(Relational OLAP)。以关系数据库为核心,以关系型结构进行多维数据的表示和存储。MOLAP表示基于多维数据组织的OLAP实现(Multidimensional OLAP),以多维数据组织方式为核心。多维数据在存储中将形成“立方块(Cube)”的结构,在MOLAP中对“立方块”的“旋转”、“切块”、“切片”是产生多维数据报表的主要技术。HOLAP表示基于混合数据组织的OLAP实现(Hybrid OLAP)。如低层是关系型的,高层是多维矩阵型的。这种方式具有更好的灵活性。
2.数据挖掘技术
数据挖掘是从数据库或数据仓库中发现并提取隐藏在其中的信息的一种新技术。它建立在数据仓库基础之上,面向非专业用户,定位于桌面,支持即兴的随机查询。数据挖掘技术能自动分析数据,对它们进行归纳性推理和联想,寻找数据间内在的某些关联,从中发掘出潜在的、对信息猜测和决策行为起着十分重要作用的模式,从而建立新的业务模型,以达到帮助决策者制定市场策略、做出正确决策的目的。数据挖掘技术涉及数据库、人工智能、机器学习、神经计算和统计分析等多种技术。
在数据仓库基础上挖掘的知识通常以图表、可视化界面等形式表示出来,但所挖掘的知识并不都是有意义的,必须进行评价、筛选和验证,把有意义的知识放到知识库中,随着时间的推移将积累更多的知识。知识库根据挖掘的知识类型分为总结性知识、关联性知识、分类模型知识、聚类模型知识,这些知识通过相应挖掘算法得到。
四、数据仓库系统在电信行业的应用
1.整合企业信息
从技术的角度考虑,以传统的操作型数据库为基础的运营支撑联机事务处理系统不能满足联机分析处理系统的复杂的,大数据量的、突发查询的能力和扩展能力要求。数据仓库系统具有高可扩展能力,支持大容量,TB级的数据存储能力,高效的查询响应能力和并行处理能力,适合于整合企业业务系统的数据,使企业对客户信息的了解达到完整性和一致性,提升企业运营数据的内在价值。
2.客户关系治理
客户关系治理(CRM)的目标是以更好的服务留住有利润的客户,提高通话量和利用率,用比竞争对手更低的成本争取到新客户,扩大市场份额;放弃无利润和信用差的客户,降低运营成本和风险。为了实现这个目标,企业就需要尽可能收集顾客的信息,利用数据挖掘技术/数据仓库和复杂的分析功能,透过无序的、表层的信息挖掘出内在的知识和规律,从而尽可能地了解客户的行为。企业可以根据这些规律或用这些信息设计数学模型,对未发生行为做出结果猜测,为企业的综合经营决策、市场策划提供依据。具体内容包括:利用用户资料和一切可能有助于进行客户分析治理的资料进行客户概况分析、客户忠诚度分析、客户群体的构成、客户消费层次、贡献最大的客户、信誉较好或差的客户、客户的地理分布、客户的消费习惯、潜在的消费需求等。通过对这些数据的分析,提供既能留住老客户又能吸引新客户的决策信息。只有树立以客户为中心的理念,充分了解客户,了解不同客户的不同消费模式,针对不同的用户采取不同的策略以达到个性化服务的目标,电信运营企业才能为客户提供优质服务。
3.市场、营销治理分析
市场情况分析的主要内容是面向与电信运营企业市场活动密切相关市场活动、市场环境、以及其他业务相关情况的分析。通过对提供的产品和服务的使用情况,网络资源的使用情况进行综合统计、分析、猜测和预警。能对产品和服务的使用情况、网络资源的使用情况进行综合统计,给出业务品牌和业务种类在不同时段、不同地区的分布,从而对新业务的推出和资费优惠政策提供依据;对竞争对手所推出的市场品牌与服务、不同的营销策略、不同的市场行为对企业收入的影响进行分析等等。当某些要害指标出现异常时,系统能自动报警,分析人员对异常指标进行深入分析后,采取相应的市场对策。在营销治理分析方面,数据仓库对各渠道的客户发展情况、收入情况、业务量情况以及渠道成本如应付酬金总额等指标进行不同角度和层次的分析,能够从不同的层面和角度对所有渠道进行全面考察,为制定合理有效的宣传促销及推广提供决策依据。
5.帐务分析
财务帐务分析主要从财务的角度,对结算、财务、帐务进行分析,通过对财务帐务的分析,可以清楚地把握目前运营收入与支出情况;可以对投资与收益进行具体的分析,包括收益的主要来源、发展趋势、各种运营项目对总收益的比重、过去的决策和政策对收益的影响、各期工程实施后收益的变化、需投资的地区及设备、投资的利用率、回报率等。
6.欠费和动态防欺诈行为分析
欠费和动态防欺诈行为分析就是在总结各种骗费、欠费行为的内在规律后,在数据仓库的基础上建立一套欺骗行为和欠费行为规则库,当用户的话费行为与该库中规则吻合或相似就发出告警,同时该系统还可以在此规则库的基础上分析各种欺骗和欠费行为,从而演绎出可能的欺骗和欠费行为,加以论证后自动加入规则库。另外欠费和动态防欺诈行为分析不仅仅是被动式的预防分析,它可以主动地进行统计分析。欠费和动态防欺诈行为分析能及时预警各种骗费、欠费,使企业损失尽量减少。同时通过用户的缴费销账情况、社会类别、占用资源等,分析用户的信誉度,对不同信誉度用户给予不同的服务及优惠。
7.网络治理和网络优化分析
网络治理和网络优化分析就是对目前网络治理中大量的数据进行分析,从而为提高全网质量、优化网络结构、进行网络规划提供可靠的保证。网络治理和优化分析将在以下三个方面对现行系统进行扩展:扩大并细化数据源;增加数据量;丰富统计分析类型。对移动通信运营商来说,可以提供对网络的熟悉,例如话务最忙的小区、投诉最多的小区、覆盖较差的地区等,从而指导网络优化工作。
据统计2000年全球500大企业中有50%的企业已经实施数据仓库或部门级数据集市,在电信、银行、零售业、航空、铁路运输、邮政等行业的全球领导厂商都已采用数据仓库作为决策支持。在以服务取胜,竞争激烈的电信市场环境中,电信运营企业只有利用数据仓库和数据挖掘技术发现企业运营数据中有价值的趋势,为市场经营和决策人员制定客户服务、业务发展和市场竞争等策略提供科学、准确、及时的依据,建立和增强与用户的关系,才能在市场竞争中取得胜利。