分享
 
 
 

Data Mining Technologies, Techniques, Tools, and Trends

王朝other·作者佚名  2008-05-31
窄屏简体版  字體: |||超大  

1. 引言

1. 什么是数据挖掘 数据挖掘是从大量的数据中抽取出潜在的、不为人知的有用信息、模式和趋势。数据挖掘的目的:提高市场决策能力;检测异常模式;在过去的经验基础上预言未来趋势等。

数据挖掘不同的术语和定义:data mining, knowledge discovery, pattern discovery, data dredging, knowledge, data archeology.

2. 数据挖掘支持技术 多技术的综合,Figure 1-2

3. 数据挖掘的概念和技术 数据挖掘的结果:分类;序列分析;数据依靠分析;偏差检测 Figure 1-3

4. 数据挖掘的方向和趋势 Figure 1-4

5. 本书组织 Figure 1-6

6. 数据挖掘的发展

Figure 1-10 Part I. Technologies for Data Mining

2. 数据库系统

* 体系:Figure 2-21,Figure 2-22,Figure 2-23

1. 数据仓库

* 数据库、数据仓库与数据挖掘的关系:Figure 3-10,Figure 3-11,Figure 3-12

1. 支持数据挖掘的其他技术

* 统计推理:线性模型,非线性模型。线性回归用于预言;线性差别分析(linear discriminate ananlysis)技术用于分类;非线性技术用于估值;抽样

* 机器学习:active learning; learning from prior knowledge; learning incrementally。概念学习(concept learning);神经元网络;遗传算法;决策树;归纳逻辑设计(indUCtive logic programming)

* 可视化:可视化表达数据挖掘结果;将数据挖掘技术应用于可视化;使用可视化技术完善数据挖掘技术;使用可视化技术steer数据挖掘过程。

* 并行处理:数据挖掘算法 + 并行处理技术 = 并行数据挖掘算法

* 决策支持:Figure 4-6,Figure 4-7

1. 数据挖掘的体系结构

* 综合技术体系结构:Figure5-1(标准接口和接口定义语言),Figure5-3

* 功能体系结构:Figure5-4,Figure5-5

* 系统体系结构:ODBC/CORBA Figure5-8,Figure5-9,三层体系结构Figure5-10,封装对象:Figure5-11

Part II. Techniques and Tools for Data Mining

1. 数据挖掘过程

* 数据挖掘项目: 需求;合适的数据;工具;人员;资金。

* 例子

o 超市分析交易数据,安排货架上货物摆布,以提高销售

o 信用卡公司分析信用卡历史数据,判定哪些人有风险,哪些没有

o 调查局分析行为模式,判定哪些人对受保护的信息具有潜在威胁

o 药房分析医师的处方,判定哪些医师愿意购买他们的产品

o 保险公司分析以前的客户记录,决定哪些客户是潜在花费昂贵的

o 汽车公司分析不同地方人的购买模型,针对性地发送给客户喜欢的汽车的手册

o 人才中心分析不同客户的工作历史,发送客户潜在的感爱好的工作信息

o 访问没有归类的竞争对手数据库,推断出潜在的归类信息

o 教育学院分析学生历史信息,决定哪些人愿意参加培训,发送手册给他们

o 核武器工厂分析历史核查信息记录,决定没有采用哪项预防措施将导致核灾难

o 广告公司分析人们购买模式,估计他们的收入和孩子数目, 作为潜在的市场信息

o 调查局分析不同团体的旅游模式,决定不同团体之间的关联

o 医师分析病人历史和当前用药情况,不仅诊断用药而且猜测潜在的问题

o 税务局分析不同团体的交所得税的记录,发现异常模型和趋势

o 调查局分析罪犯记录,推断哪些人可能会犯恐怖罪和大的谋杀罪

数据挖掘应用领域 Figure 6-1

* 数据挖掘的步骤:Figure 6-3,修剪结果:Figure 6-4;治理因素

* 挑战:Figure 6-5

* 用户接口方面:研究较少;可视化

1. 数据挖掘的结果、方法和技术

* 数据挖掘应用步骤:Figure 7 – 1

* 数据挖掘的结果(任务,类型)

o 分类

o Estimation: 例子,分析消费模型,估计个人收入和孩子数目

o 预言 例子,根据个人教育、当前工作、行业趋势,预言2005年工资

o Affinity Grouping(关联规则,Correlation )

o 聚集

o 偏差分析deviation

o 异常检测 anomaly:fraud detection ; medical illness detection …

* 数据挖掘方法 Figure 7-3

o 自顶向下top-down:以假设开始

o 自下而上bottom-up:直接(supervised learning)- 提问;间接

o 混合方法

* 数据挖掘技术和算法

o market basket analysis: 智能搜索,超市

o 决策树:分类

o 神经网络:聚集,偏差分析…

o 归纳逻辑程序

o link analysis, automatic cluster detection techniques ,nearest neighbor techniques

o 遗传算法

o 模糊逻辑

o 约略集rough set

o concept learning 概念学习

o 简单的基于规则的推理

1. 逻辑程序作为数据挖掘技术

* 演绎逻辑程序

* 归纳逻辑程序

* ILP作为数据挖掘技术

* ILP应用 Figure 8 –6

1. 数据挖掘工具

* 数据挖掘工具分类 Figure 9-1

* 原型工具

o 新的功能模型

开发新的模型、框架:Stanford University; MITRE Corporation ; Hitachi Corporation ; Rutgers University 目的:综合数据挖掘和数据库治理 项目名称:Queryflocks (Stanford University,MITRE Corporation,Hitachi Corporation),开发支持数据挖掘查询方法和优化技术。

Rutgers University,数据挖掘查询语言

o 新的信息服务

挖掘不同类型的数据(多媒体) Text数据挖掘:Queryflocks;Cheng and Ng ,University of Arizona;Feldman,Bar-Ilan University in Israel Image数据挖掘:SKICAT,JPL(Jet Propulsion Lab);Clifton,MITRE Co.;University of British Columbia WEB数据挖掘:University of Michigan ;University of Minnesota

o Scalability

数据挖掘算法的可度量性:The Massive Digital Data System Project;Magnify Inc.;Thinking Machines Co.;SGI;IBM’s YorkTown Heights research laboratory

o 结果的可理解性

GTE Lab;Simon Fraser University;University of Massachusetts at Lowell

o 大规模的项目

IBM Quest project, AgarwalSimon Fraser University’s DBMINER, Han

* 商业工具

o Red Brick: DATAMIND

o Lockheed Martin: RECON

o IBM: INTELLIGENT MINER

o Information Discovery: IDIS

o Neo Vista: DECISION SERIES

Part III. Trends in Data Mining

1. 挖掘分布式、异质、遗留数据库

* 分布式数据库:Figure 10-1,Figure 10-2

* 异质数据库的互操作:Figure 10-4

* 遗留数据库的迁移:Figure 10-5

* 挖掘分布式、异质、遗留数据库

o 分布式数据挖掘:Figure 10-6,Figure 10-9

o 异质数据库挖掘:Figure 10-10,Figure 10-11,Figure 10-12,Figure 10-13,Figure 10-14 合作数据挖掘,中间件 Figure 10-16

o 遗留数据库挖掘:Figure 10-17,Figure 10-18,系统重建Figure 10-19

1. 多媒体数据挖掘

* 两种方法:抽取结构,挖掘结构数据;直接挖掘多媒体数据

* 多媒体数据库:体系结构;数据建模;MM-DBMS 功能:数据操纵,事务治理,元数据治理;存储治理;一致性和完整性。

* 挖掘多媒体数据

o Text挖掘

半结构,非结构; 转换成结构化数据,在结构化数据上挖掘(文本—关系数据库)Figure 11-10 数据挖掘与信息检索结合Figure 11-11 开发直接挖掘非结构化数据的工具Figure 11-12

o Image 挖掘

Clifton 抽取元数据挖掘;Unusual pattern; classify, cluster, associate image

o Video 挖掘

转化Figure 11-14;直接挖掘Figure 11-15

o Audio 挖掘

与Video类似,Text转化Figure 11-16;直接挖掘Figure 11-17

o 挖掘综合类型

与异质数据库类似,MDP Multimedia Distributed Processor 先综合后挖掘Figure 11-18, 先挖掘后综合Figure 11-19

1. 数据挖掘和WWW

* Internet 数据库治理和数字图书馆

* Web数据挖掘

o 分类:Figure 12-12

o 挖掘Web数据:Figure 12-6;Figure 12-7;Figure 12-8;Figure 12-9;Figure 12-10

o 挖掘访问模式:Figure 12-11

1. 数据挖掘的安全和隐私问题

* inference 问题

* mining , warehouse , inference

* 隐私问题:Figure 13-7

1. 数据挖掘的元数据

* 元数据

* 挖掘和元数据

o 元数据挖掘Figure 14-4

o mining and repository Figure 14-5

o 多媒体数据和元数据Figure 14-6

o Web数据挖掘和元数据Figure 14-7

o 中心容器Figure 14-8(数据库中的数据很难直接挖掘)

2. 总结

 
 
 
免责声明:本文为网络用户发布,其观点仅代表作者个人观点,与本站无关,本站仅提供信息存储服务。文中陈述内容未经本站证实,其真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
2023年上半年GDP全球前十五强
 百态   2023-10-24
美众议院议长启动对拜登的弹劾调查
 百态   2023-09-13
上海、济南、武汉等多地出现不明坠落物
 探索   2023-09-06
印度或要将国名改为“巴拉特”
 百态   2023-09-06
男子为女友送行,买票不登机被捕
 百态   2023-08-20
手机地震预警功能怎么开?
 干货   2023-08-06
女子4年卖2套房花700多万做美容:不但没变美脸,面部还出现变形
 百态   2023-08-04
住户一楼被水淹 还冲来8头猪
 百态   2023-07-31
女子体内爬出大量瓜子状活虫
 百态   2023-07-25
地球连续35年收到神秘规律性信号,网友:不要回答!
 探索   2023-07-21
全球镓价格本周大涨27%
 探索   2023-07-09
钱都流向了那些不缺钱的人,苦都留给了能吃苦的人
 探索   2023-07-02
倩女手游刀客魅者强控制(强混乱强眩晕强睡眠)和对应控制抗性的关系
 百态   2020-08-20
美国5月9日最新疫情:美国确诊人数突破131万
 百态   2020-05-09
荷兰政府宣布将集体辞职
 干货   2020-04-30
倩女幽魂手游师徒任务情义春秋猜成语答案逍遥观:鹏程万里
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案神机营:射石饮羽
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案昆仑山:拔刀相助
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案天工阁:鬼斧神工
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案丝路古道:单枪匹马
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案镇郊荒野:与虎谋皮
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案镇郊荒野:李代桃僵
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案镇郊荒野:指鹿为马
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案金陵:小鸟依人
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案金陵:千金买邻
 干货   2019-11-12
 
推荐阅读
 
 
 
>>返回首頁<<
 
靜靜地坐在廢墟上,四周的荒凉一望無際,忽然覺得,淒涼也很美
© 2005- 王朝網路 版權所有