分享
 
 
 

数据挖掘研究现状

王朝other·作者佚名  2008-05-19
窄屏简体版  字體: |||超大  

一、 时代的挑战

近十几年来,人们利用信息技术生产和搜集数据的能力大幅度提高,千万万个数据库被用于商业管理、政府办公、科学研究和工程开发等等,这一势头仍将持续发展下去。于是,一个新的挑战被提了出来:在这被称之为信息爆炸的时代,信息过量几乎成为人人需要面对的问题。如何才能不被信息的汪洋大海所淹没,从中及时发现有用的知识,提高信息利用率呢?要想使数据真正成为一个公司的资源,只有充分利用它为公司自身的业务决策和战略发展服务才行,否则大量的数据可能成为包袱,甚至成为垃圾。因此,面对"人们被数据淹没,人们却饥饿于知识"的挑战,数据挖掘和知识发现(DMKD)技术应运而生,并得以蓬勃发展,越来越显示出其强大的生命力。

数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。还有很多和这一术语相近似的术语,如从数据库中发现知识(KDD)、数据分析、数据融合(Data Fusion)以及决策支持等。人们把原始数据看作是形成知识的源泉,就像从矿石中采矿一样。原始数据可以是结构化的,如关系数据库中的数据,也可以是半结构化的,如文本、图形、图像数据,甚至是分布在网络上的异构型数据。发现知识的方法可以是数学的,也可以是非数学的;可以是演绎的,也可以是归纳的。发现了的知识可以被用于信息管理、查询优化、决策支持、过程控制等,还可以用于数据自身的维护。因此,数据挖掘是一门很广义的交叉学科,它汇聚了不同领域的研究者,尤其是数据库、人工智能、数理统计、可视化、并行计算等方面的学者和工程技术人员。

特别要指出的是,数据挖掘技术从一开始就是面向应用的。它不仅是面向特定数据库的简单检索查询调用,而且要对这些数据进行微观、中观乃至宏观的统计、分析、综合和推理,以指导实际问题的求解,企图发现事件间的相互关联,甚至利用已有的数据对未来的活动进行预测。

二、 研究现状

KDD一词首次出现在1989年8月举行的第11届国际联合人工智能学术会议上。迄今为止,由美国人工智能协会主办的KDD国际研讨会已经召开了7次,规模由原来的专题讨论会发展到国际学术大会,人数由二三十人到七八百人,论文收录比例从2X1到6X1,研究重点也逐渐从发现方法转向系统应用,并且注重多种发现策略和技术的集成,以及多种学科之间的相互渗透。其 谌莸淖ㄌ饣嵋橐舶咽?萃诰蚝椭?斗⑾至形?樘庵??成为当前计算机科学界的一大热点。

此外,数据库、人工智能、信息处理、知识工程等领域的国际学术刊物也纷纷开辟了 KDD专题或专刊。IEEE的Knowledge and Data Engineering 会刊领先在1993年出版了KD D技术专刊,所发表的5篇论文代表了当时KDD研究的最新成果和动态,较全面地论述了KDD 系统方法论、发现结果的评价、KDD系统设计的逻辑方法,集中讨论了鉴于数据库的动态性冗余、高噪声和不确定性、空值等问题,KDD系统与其它传统的机器学习、专家系统、人工神经网络、数理统计分析系统的联系和区别,以及相应的基本对策。6篇论文摘要展示了KDD在从建立分子模型到设计制造业的具体应用。

不仅如此,在Internet上还有不少KDD电子出版物,其中以半月刊Knowledge Discove ryNuggets最为权威,另一份在线周刊为DS*(DS代表决策支持),1997年10月7日开始出版。在网上,还有一个自由论坛 DM Email Club, 人们通过电子邮件相互讨论DMKD的热点问题。而领导整个潮流的DMKD开发和研究中心,当数设在美国EMDEN的IBM公司开发部。 至于DMKD书籍,可以在任何计算机书店找到十多本,但大多带有商业色彩。

三、内容和本质

随着DMKD研究逐步走向深入,人们越来越清楚地认识到,DMKD的研究主要有3个技术支柱,即数据库、人工智能和数理统计。

数据库技术在经过了80年代的辉煌之后,已经在各行各业成为一种数据库文化或时尚,数据库界目前除了关注万维网数据库、分布式数据库、面向对象数据库、多媒体数据库、查询优化和并行计算等技术外,已经在开始反思。数据库最实质的应用仅仅是查询吗?理论根基最深的关系数据库最本质的技术进步点,就是数据存放和数据使用之间的相互分离。查询是数据库的奴隶,发现才是数据库的主人;数据只为职员服务,不为老板服务! 这是很多单位的领导在热心数据库建设后发出的感叹。

由于数据库文化的迅速普及,用数据库作为知识源具有坚实的基础;另一方面,对于一个感兴趣的特定领域――客观世界,先用数据库技术将其形式化并组织起来,就会大大提高知识获取起点,以后从中发掘或发现的所有知识都是针对该数据库而言的。因此,在需求的驱动下,很多数据库学者转向对数据仓库和数据挖掘的研究,从对演绎数据库的研究转向对归纳数据库的研究。

专家系统曾经是人工智能研究工作者的骄傲。专家系统实质上是一个问题求解系统 ,目前的主要理论工具是基于谓词演算的机器定理证明技术――二阶演绎系统。领域专家长期以来面向一个特定领域的经验世界,通过人脑的思维活动积累了大量有用信息。

在研制一个专家系统时,知识工程师首先要从领域专家那里获取知识,这一过程实质上是归纳过程,是非常复杂的个人到个人之间的交互过程,有很强的个性和随机性。因此 ,知识获取成为专家系统研究中公认的瓶颈问题。

其次,知识工程师在整理表达从领域专家那里获得的知识时,用if-then等类的规则表达,约束性太大,用常规数理逻辑来表达社会现象和人的思维活动局限性太大,也太困难, 勉强抽象出来的规则有很强的工艺色彩,差异性极大,知识表示又成为一大难题。

此外,即使某个领域的知识通过一定手段获取并表达了,但这样做成的专家系统对常识和百科知识出奇地贫乏,而人类专家的知识是以拥有大量常识为基础的。人工智能学家 Feigenbaum估计,一般人拥有的常识存入计算机大约有100万条事实和抽象经验法则,离开常识的专家系统有时会比傻子还傻。例如战场指挥员会根据"在某地发现一只刚死的波斯猫"的情报很快断定敌高级指挥所的位置,而再好的军事专家系统也难以顾全到如此的信息。

以上这3大难题大大限制了专家系统的应用,使得专家系统目前还停留在构造诸如发动机故障论断一类的水平上。人工智能学者开始着手基于案例的推理,尤其是从事机器学习的科学家们,不再满足自己构造的小样本学习模式的象牙塔,开始正视现实生活中大量的、不完全的、有噪声的、模糊的、随机的大数据样本,也走上了数据挖掘的道路。

数理统计是应用数学中最重要、最活跃的学科之一,它在计算机发明之前就诞生了, 迄今已有几百年的发展历史。如今相当强大有效的数理统计方法和工具,已成为信息咨询业的基础。信息时代,咨询业更为发达。然而,数理统计和数据库技术结合得并不算快,数据库查询语言SQL中的聚合函数功能极其简单,就是一个证明。咨询业用数据库查询数据还远远不够。一旦人们有了从数据查询到知识发现、从数据演绎到数据归纳的要求,概率论和数理统计就获得了新的生命力,所以才会在DMKD这个结合点上,立即呈现出"忽如一夜春风来,千树万树梨花开"的繁荣景象。一向以数理统计工具和可视化计算闻名的美国SA S公司,领先宣布进入DMKD行列。

数据挖掘所能发现的知识有如下几种:广义型知识,反映同类事物共同性质的知识; 特征型知识,反映事物各方面的特征知识;差异型知识,反映不同事物之间属性差别的知识 ;关联型知识,反映事物之间依赖或关联的知识;预测型知识,根据历史的和当前的数据推测未来数据;偏离型知识,揭示事物偏离常规的异常现象。所有这些知识都可以在不同的概念层次上被发现,随着概念树的提升,从微观到中观再到宏观,以满足不同用户、不同层次决策的需要。

四、发展方向

当前,DMKD研究正方兴未艾,预计在21世纪还会形成更大的高潮,研究焦点可能会集中到以下几个方面:研究专门用于知识发现的数据挖掘语言,也许会像SQL语言一样走向形式化和标准化;寻求数据挖掘过程中的可视化方法,使得知识发现的过程能够被用户理解 ,也便于在知识发现过程中的人机交互;研究在网络环境下的数据挖掘技术,特别是在Int ernet上建立DMKD服务器,与数据库服务器配合,实现数据挖掘;加强对各种非结构化数据的挖掘,如文本数据、图形图像数据、多媒体数据。但是,无论怎样,需求牵引,市场驱动是永恒的,DMKD将首先满足信息时代用户的急需,大量基于DMKD的决策支持软件工具产品将会问世

 
 
 
免责声明:本文为网络用户发布,其观点仅代表作者个人观点,与本站无关,本站仅提供信息存储服务。文中陈述内容未经本站证实,其真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
2023年上半年GDP全球前十五强
 百态   2023-10-24
美众议院议长启动对拜登的弹劾调查
 百态   2023-09-13
上海、济南、武汉等多地出现不明坠落物
 探索   2023-09-06
印度或要将国名改为“巴拉特”
 百态   2023-09-06
男子为女友送行,买票不登机被捕
 百态   2023-08-20
手机地震预警功能怎么开?
 干货   2023-08-06
女子4年卖2套房花700多万做美容:不但没变美脸,面部还出现变形
 百态   2023-08-04
住户一楼被水淹 还冲来8头猪
 百态   2023-07-31
女子体内爬出大量瓜子状活虫
 百态   2023-07-25
地球连续35年收到神秘规律性信号,网友:不要回答!
 探索   2023-07-21
全球镓价格本周大涨27%
 探索   2023-07-09
钱都流向了那些不缺钱的人,苦都留给了能吃苦的人
 探索   2023-07-02
倩女手游刀客魅者强控制(强混乱强眩晕强睡眠)和对应控制抗性的关系
 百态   2020-08-20
美国5月9日最新疫情:美国确诊人数突破131万
 百态   2020-05-09
荷兰政府宣布将集体辞职
 干货   2020-04-30
倩女幽魂手游师徒任务情义春秋猜成语答案逍遥观:鹏程万里
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案神机营:射石饮羽
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案昆仑山:拔刀相助
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案天工阁:鬼斧神工
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案丝路古道:单枪匹马
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案镇郊荒野:与虎谋皮
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案镇郊荒野:李代桃僵
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案镇郊荒野:指鹿为马
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案金陵:小鸟依人
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案金陵:千金买邻
 干货   2019-11-12
 
推荐阅读
 
 
 
>>返回首頁<<
 
靜靜地坐在廢墟上,四周的荒凉一望無際,忽然覺得,淒涼也很美
© 2005- 王朝網路 版權所有