分享
 
 
 

BI有没有前途 数据仓库之路如何继续下去

王朝other·作者佚名  2008-06-06
窄屏简体版  字體: |||超大  

这篇论坛文章(赛迪网技术社区)根据笔者的个人经历论述了以下几个问题:

1.数据仓库是什么?2.BI是什么?3.自己的数据仓库之路如何继续下去?4.BI到底有没有前途?

更多内容请读者参考下文:

虽然从开始到现在已经过去两年了,但是我的疑问还在继续也将继续下去.......

曾经在国内某民族通信企业(通过CMM5级认证)工作过一段时间,因厌倦了客户无休止的需求导致程序无休止的修改,也厌倦了某不懂编码X士项目经理无休止的加班要求(一个月只休息了一天),便走上了BI这条不归路。

最初的BI知识,是由在公司接受了2周培训的哥们给我培训的,两个人两眼一抹黑便开始广东XX局点BI的开局工作,大家对BI知识懵懵懂懂的,还好对 SQLServer2000和Oracle我还不陌生,毕竟也用了4、5年的时间做过数据库程序开发(不管怎么样写个SQL脚本还是没问题的)。XX局点的数据仓库现在看起来并不太复杂,ETL工具是使用微软SQLServer2000的DTS作了一层包装,然后调用了SQLServer2000写的一堆存储过程,还有公司内部开发的一个数据迁移和处理二进制话单的工具,配置起来颇有些麻烦(开发者颇有些功底,但以后也不会再使用了);业务数据库只有 Oracle,还有些二进制文件;报表工具是国内一家厂商提供的,说实话开发效率挺高的,但土了点,稳定性也差了点;OLAP就是Analysis Service了。那时候不懂架构,只知道比葫芦画瓢,按照原来的样子进行代码编写。有一件比较搞笑的事,用户要求出一类报表,我和同事还不会OLAP,我就灵机一动写了数十张报表,满足不同维度和层次的要求,虽然效率很低。培训了两周后,就让我到某某移动开局去了,当然什么都没搞起来,这让我很没面子,同时也很没绩效。

现在已经离开了那家曾经有过过劳死的企业(也许程序员就是IT民工吧,今天可以招上10000万,明天也可以离去3000人,反正民工多的是啊),该结的都结清了,谁也不再欠谁,我也失去了憎恨和爱戴的心情了。

这些都成为历史了,还是写写数据仓库的所谓架构吧。

数据仓库的设计主要是这样的:

业务系统—>ETL(DTS)—>原始数据库—>事实数据库—>OLAP—>前端报表。

业务系统就是用户的Oracle数据库了,里面有一些业务数据(当然自己的系统数据字典还是有的),此外还有一些二进制话单文件。

ETL过程就是一堆存储过程(维度的抽取、原始数据的抽取、事实数据的日结),然后通过DTS任务包调度起来。

原始数据库就应该是ODS数据库了,负责把数据原封不动的从业务系统抽取过来(部分也经过转化和清洗);出于对SQLServer2000性能的考虑,将每个业务数据表都分成历史表和当前表,当前表根据数据量的情况决定保留数据周期并定时转移到历史表中。

事实数据库保存着聚合信息的数据,完成KPI指标的计算,以及维度的抽取工作;同时在进行聚合的同时完成数据清洗工作。其实清洗很简单的,就是对NULL 的处理,连对主外键的判断都没有,也许是业务系统的数据质量还算不错吧,维度的处理仅作更新和插入处理,来保证外键数据的匹配。不过 SQLServer2000的性能实在不敢恭维,大于1000万的数据表处理的勉勉强强的,只好建了许多了分区表(实际上就是每个月一张数据表,用视图 Union起来,这也是微软推荐的方式)。

OLAP采用VBScript脚本对CUBE进行数据增量更新,说实话到现在也没太看明白每条语句的意思,对于每个分析主题建立分区(按月),主要是对MSOLAP的性能实在太不放心了。

报表工具采用国内一家专业厂商的报表工具,有一个应用服务器,定义知识库和报表权限之类的内容,报表的开发还是比较容易的,托托拽拽的就成了,二次开发的函数有点困难,还好用户要求不高,经过摸索作了一些自定义处理。就是应用服务器有点不稳定,在我的长期摸索下也逐渐掌握了规律,写了一些案例;哎现在再也用不到了。说实话其实OLAP功能还是蛮强大的(主要是能够满足国内企业的报表功能和变态查询要求),OLTP报表功能就不敢恭维了。

对于业务数据到原始数据的处理,完全采用增量抽取的原则(因为每个表都有了时间点);对于原始数据到事实数据的处理,则增加了一张log表,记录每次抽取的周期、跨度、与当前时间的差距和状态等等。对于OLAP的增量处理也是靠一张日志表决定处理的范围。唯一比较独特的可能是部分业务数据用户可能会更新,需要重新抽取、聚集和OLAP处理,这个时候在处理之前首先删除这段时间的数据,重新抽取、聚集和OLAP处理,当然是靠脚本来完成的。

总体来讲这就是我一年多做BI的经验和所谓架构吧,当然也有许多问题,例如SQLServer2000的稳定性、性能考验等等问题,DTS处理过程中来时发生任务中断,需要察看日志,作进一步处理,对于源抽取、事实日结、OLAP处理的中断处理方式均不一致。对于SQLServer2000的死锁以及内存泄漏等问题也有了一定经验。对报表工具的理解也是我后来对各种报表工具学习的基础。

经过一年多7、8个局点的锻炼,脸皮也变厚了,学习也麻木了,现成的版本,统一的流程,自己以为这就是BI的全部了,总之自己就是搞过数据仓库的人了,加上做过那么点数据库优化和数据迁移,感觉自己算是小牛一个了,呵呵。

不幸的是今年年初又折腾到老路上去了,拼了老命干了1个月的java和WebService,搞得心神俱疲,才发现自己不年轻了,也不是做编码的料。

于是乎辞职了,不管好歹也是从国内数一数二的大公司出来的,找个世界五百强还是没什么问题的,而且专业对口,属于那种天生就可以外出和客户交流的人,这可能是新公司对我的期望,要不然英语那么差劲,怎么可能轻易进来呢,待遇也还算不错,是原公司的1.5倍。其实我根本就不是那样的人,呵呵,不太喜欢和客户交流,不善于言辞,技术也是样样都知道样样不精通的那种。

既然进来了,又开始搞BI了,不过已经下班了,回去后再续写新公司的BI篇章,呵呵。

在新公司转眼已经呆了5个月,前三个月除了培训就是学习,向领导要了几次活干之后再也不要活干了,因为大家都无活可干,于是每天上上itpub学习一下 Oracle,或者交流一下数据仓库,积累一下人脉(刚学会的名词),英语本来是一个很重要的目标,可惜我总是不开窍,而且连半个假洋鬼子英语也说不好,现在要做国内项目了,英语成了我永远的痛。

数据仓库知识没学到多少,Oracle知识却感觉长进了不少,每天培训不少,可有质量的培训却不多,当然即使有质量的培训也轮不到我等刚入公司的去学习。外企就是外企,每天总是拿着工资不干活,天天喝着咖啡、橙汁,总感觉像是被恩赐似的,很不爽,还是得找点事来做,不过三个月的懈怠确确实实把我从一个勤勤恳恳兢兢业业的老黄牛变成了一个彻头彻尾的懒虫了,每天早9晚6准时的很,也许这才是生活,名片也打印了,上面没有手机,就是八个小时之外不用来找我的意思吧。

国外项目谈了将近一年了没谈成,我就失业了;另外一个国内外企的项目因为领导感觉我不善言辞,把我换掉了;只好做一个彻头彻尾的国内项目了,做一个小小的工程师也很不错,不用担责任想事情,反正我就是一个懒惰的人。一个月就换了3个工作,虽然什么都还没做。

言归正传,国内企业就是国内企业,外表很光鲜,做起项目来尾巴就露出来了,大概是一个应景之作吧,客户要求一个数据仓库项目1个半月就要完成,半个月的需求,一个月的设计开发和测试;更要命的是现在需求丝毫没有些许的概念,客户要求用国际化的行业经验来帮助制定相应的KPI,理论联系实际,怎么招,我也不知道怎么招,反正有售前人员请的国外顾问,能忽悠就忽悠吧。不过说归说,前期的工作还是要开展的。

所谓的数据仓库架构,我也是第一次听说,改改一些概念,干脆一起来分享一下吧,没准还能成为行业标准,呵呵!该架构主要分为四层结构体系:

> ODS层

主要负责采集业务系统并保存一定期限内的相关业务数据。当然也可以满足用户对明细数据的查询要求,姑且也可以算作明细数据仓库。

> 数据仓库层

将ODS层经过质量检查、清洗、转换后,形成符合质量要求的公共数据中心。实际上与ODS层差别不大,都是建立以ER为中心的数据关系,方便以后的数据的聚合。

> 明细数据集市层即前面所说的事实层

按主题及KPI指标对数据仓库层数据进行进一步转换,将指标与维度组成数据集市。这是OLAP的数据基础。

> 聚合数据集市层即OLAP

在明细数据集市层的基础上,提供基于联机分析处理(OLAP)引擎的多维分析能力,解决联机分析功能和决策支持要求。

> 数据展现层

按照用户报表要求,提供用户报表界面及预警分发机制。

其中前3层都是属于ETL层的,问题是层次出来了我的疑问也出来了,都是属于那种别人不操心我瞎操心的事。毕竟算是搞数据库出身的(搞过一些索引和简单的 SQL调优),最关心的还是性能问题。数据仓库是企业级的数据中心,每天上G的数据的企业不在少数,那么多的层次,使用工具能抽的完数据吗?说实话我实在不信任ETL工具,总感觉他没我写的SQL语句效率高;即使抽的完数据,那么多的层次转换能处理的完吗;即使处理完,如果万一一个环节出现问题,能回退或重新处理吗;处理完后那OLAP该怎么调度啊;数据质量(清洗转换)到底在哪个环节处理;数据质量到底包括哪些东西(除了主外键缺失和NULL值),兄弟比较愚笨,一直想不明白;不合质量要求的数据如何处理;入库的数据在业务库发生更改怎么办;业务数据没有时间戳怎么办;数据核对和校验工作如何进行;不管工具也好代码也好,到底有没有通用的处理流程(比如维度数据处理,原始业务数据抽取,事实表日结处理);还有就是到现在也没搞到合适的需求设计文档的模板 (如果哪位兄弟有可以帮忙提供一下)。这一系列问题我是横竖想不明白的,反正我的问题总是比别人多,学东西总比别人慢,还是人年龄大了真的退化了。

关于数据仓库的逐步学习,发现不懂得越来越多了,希望大家多提点提点,数据挖掘我是一窍不通,高等数学没学好,算法自然也学不会,只怪我高中文科出身,信息管理系的文凭拿的还是文学学士,简直没脸见人了;业务建模和需求分析也不是我擅长的,因此我只能关心纯技术的东西,可是ETL工具把人写代码的权力也剥夺了,因此我只能关心一些大的方面了,这难道就是所谓的架构吗?不知道,哎,学吧!

完了,希望不要占用大家的时间,还是带一句E文吧,TKS!

 
 
 
免责声明:本文为网络用户发布,其观点仅代表作者个人观点,与本站无关,本站仅提供信息存储服务。文中陈述内容未经本站证实,其真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
2023年上半年GDP全球前十五强
 百态   2023-10-24
美众议院议长启动对拜登的弹劾调查
 百态   2023-09-13
上海、济南、武汉等多地出现不明坠落物
 探索   2023-09-06
印度或要将国名改为“巴拉特”
 百态   2023-09-06
男子为女友送行,买票不登机被捕
 百态   2023-08-20
手机地震预警功能怎么开?
 干货   2023-08-06
女子4年卖2套房花700多万做美容:不但没变美脸,面部还出现变形
 百态   2023-08-04
住户一楼被水淹 还冲来8头猪
 百态   2023-07-31
女子体内爬出大量瓜子状活虫
 百态   2023-07-25
地球连续35年收到神秘规律性信号,网友:不要回答!
 探索   2023-07-21
全球镓价格本周大涨27%
 探索   2023-07-09
钱都流向了那些不缺钱的人,苦都留给了能吃苦的人
 探索   2023-07-02
倩女手游刀客魅者强控制(强混乱强眩晕强睡眠)和对应控制抗性的关系
 百态   2020-08-20
美国5月9日最新疫情:美国确诊人数突破131万
 百态   2020-05-09
荷兰政府宣布将集体辞职
 干货   2020-04-30
倩女幽魂手游师徒任务情义春秋猜成语答案逍遥观:鹏程万里
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案神机营:射石饮羽
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案昆仑山:拔刀相助
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案天工阁:鬼斧神工
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案丝路古道:单枪匹马
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案镇郊荒野:与虎谋皮
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案镇郊荒野:李代桃僵
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案镇郊荒野:指鹿为马
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案金陵:小鸟依人
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案金陵:千金买邻
 干货   2019-11-12
 
推荐阅读
 
 
 
>>返回首頁<<
 
靜靜地坐在廢墟上,四周的荒凉一望無際,忽然覺得,淒涼也很美
© 2005- 王朝網路 版權所有