分享
 
 
 

近期我对挖掘多维关联规则和Apriori挖掘事务数据的看法

王朝other·作者佚名  2006-03-08
窄屏简体版  字體: |||超大  

这几天我对数据挖掘中的关联挖掘有不少的疑问,看了教材上的Apriori算法。但是在实际挖掘算法的实现上遇到了一些问题。Apriori算法在《数据挖掘:概念与技术》的教材上演示的是针对事务数据的挖掘,类似这样的{I1,I2,I3}这样的事务数据集,并不要求I1,I2,I3之间是在同一张表上。而挖掘多维数据,那么是指的多维属性,比如 buys(X,"beef") ^ buys(X,"beer") => buys(X,"fork"),买了牛肉和啤酒的人多半会买叉子这个规则上,都是buys这个属性下的数据,所以还是单维。而书上的例子,age(X,"20...29") ^ income(X,"20K...29K") => buys(X,"CD_player")这就是一个多个属性,多维的关联规则。 而age,income,buys这几个属性可能在多张数据表上。

教材上主要由Apriori算法来讲解关联挖掘部分,其中是以事务数据来挖掘的。开始实施Apriori算法的时候,我面对的是一张张表,而不是事务数据,就不太明白如何使用Apriori了。后来考虑了一下,把表中的信息提取出来,融合成一个个的事务,那么进行关联挖掘的时候,对于Apriori算法来说,觉得根本不需要理会这个到底是多维还是单维的事务,多维的数据其实可以融合成一个事务。这只是我初步的想法,后来我就询问了毕业设计指导老师,下面是我和指导老师的通信:

------------------------------------------------------

XX老师:

我是唐良,是计算机学院2002级本科毕业设计分配在唐老师门下做的。上个学期,已经定下来是做教务处的教务管理数据挖掘系统,你当时也给我们指导过一次。现在我们在《数据挖掘概念和技术》的时候,遇到一些问题,想请教一下。

1. 在第六章讲解挖掘关联规则的时候后半部分,讲解了挖掘多维关联规则的时候,似乎是讲解挖掘量化数据的办法的嘛。而多维关联规则,前面的Apriori算法本省就可以产生多维的啊。比如找到频繁项{I1, I2, I3}就有可能导出 I1 ^ I2 => I3,这不就是二维的关联规则了吗?

2. 我看书上说的那些关联挖掘,都是基于一个事务表,这个表和实际的数据库中关系表似乎不一样吧。事务表中,一次事务的项可以是多个,个数可以不同,而实际的关系数据表中,字段个数都是固定的啊。那么就有这样一个问题,在挖掘关联规则的时候,一个事务可能并不能简单对应书上的那种一个表的一个Record记录,是不是我需要自己在扫描数据库的时候再构造一个事务处理,然后再交给关联挖掘算法?

谢谢!

唐良

2006-2-22

------------------------------------------------------

唐良,你好!

对于第1个问题,在关联规则挖掘中,所指的“维”实际上是指“属性”,那么在你举的例子中“I1 ^ I2 => I3”,I1、I2或I3都是一个属性下的项,所以仍然是单维关联挖掘。

对于第2个问题,这个问题实际中怎样操作数据库的数据来进行数据挖掘,这个不好说,但有一点可以肯定数据是需要预处理的,那么在预处理阶段,除了要做些去除“噪声”,转换格式,啊等等操作外,还要把数据转换成易于算法处理的格式。正如你所发现的问题:如果象书上例子那样描述数据,算法很难处理,起码不易扩展事务项。实际上,真正在做关联规则分析时,我们会把数据转换成另外一种格式,我给你传一个附件,是一个用于关联规则算法的数据,(第一列和第二列一样,都是指事务项编号;第三列是每项事务所含的事务),实际上,在进行分类算法分析时也是一样。

-----------------------------------------------------

XX老师:

我又看了一下书,大致明白了多维和单维的关系。但是我觉得,Apriori挖掘的是针对事务的数据啊,即使是多维的数据,在数据预处理的时候就可以把相关的几个属性数据合并到一个事务数据项啊。比如书上的例子,age(X,"20...29") ^ income(X,"20K...29K") => buys(X,"CD_player")这个。虽然age,income,buys都是不同属性,不同的数据表内,但是我可以根据人物X,把几个数据合并成一个事务数据项啊,{ age, income, buys}这个样子,那么我就是针对这种事务数据项来使用Apriori算法来挖就是了啊。你看我想的对不对?

书上的那个多维规则, age(X,"20...29") ^ income(X,"20K...29K") => buys(X,"CD_player")。age,income,buys三个属性可能存放在不同的数据表内,但是必然有相互索引关联的关键字。我的想法就是把三个数据都打成一个事务数据表,比如说:

{ age("20...29"), income("20K...29K"), buys("CD_player") }

{ age("10...19"), income("0...5K"), buys("CD_player") }

{ age("20...29"), income("50K...80K"), buys("Computer") }

{ age("30...39"), income("30K...40K"), buys("TV") }

...

你看这样行不行?

唐良

2006-2-23

-----------------------------------------------------

唐良,你好!

你在无意识(或有意)中做了数据挖掘的另一个研究方向,属性融合。

就象你在上一封邮件中谈到的那个例子一样,如果age属性事先被分成了3个量化区间(那么令为I1, I2, I3),income属性被划分成了若干区间(I4,...Ik),buys有两个值(Ik+1, Ik+2),那么我们就可以用Apriori算法来处理了,这实际上是做了一个映射,把多维的特征转换成了一维,我认为是可以的。

 
 
 
免责声明:本文为网络用户发布,其观点仅代表作者个人观点,与本站无关,本站仅提供信息存储服务。文中陈述内容未经本站证实,其真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
2023年上半年GDP全球前十五强
 百态   2023-10-24
美众议院议长启动对拜登的弹劾调查
 百态   2023-09-13
上海、济南、武汉等多地出现不明坠落物
 探索   2023-09-06
印度或要将国名改为“巴拉特”
 百态   2023-09-06
男子为女友送行,买票不登机被捕
 百态   2023-08-20
手机地震预警功能怎么开?
 干货   2023-08-06
女子4年卖2套房花700多万做美容:不但没变美脸,面部还出现变形
 百态   2023-08-04
住户一楼被水淹 还冲来8头猪
 百态   2023-07-31
女子体内爬出大量瓜子状活虫
 百态   2023-07-25
地球连续35年收到神秘规律性信号,网友:不要回答!
 探索   2023-07-21
全球镓价格本周大涨27%
 探索   2023-07-09
钱都流向了那些不缺钱的人,苦都留给了能吃苦的人
 探索   2023-07-02
倩女手游刀客魅者强控制(强混乱强眩晕强睡眠)和对应控制抗性的关系
 百态   2020-08-20
美国5月9日最新疫情:美国确诊人数突破131万
 百态   2020-05-09
荷兰政府宣布将集体辞职
 干货   2020-04-30
倩女幽魂手游师徒任务情义春秋猜成语答案逍遥观:鹏程万里
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案神机营:射石饮羽
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案昆仑山:拔刀相助
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案天工阁:鬼斧神工
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案丝路古道:单枪匹马
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案镇郊荒野:与虎谋皮
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案镇郊荒野:李代桃僵
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案镇郊荒野:指鹿为马
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案金陵:小鸟依人
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案金陵:千金买邻
 干货   2019-11-12
 
推荐阅读
 
 
 
>>返回首頁<<
 
靜靜地坐在廢墟上,四周的荒凉一望無際,忽然覺得,淒涼也很美
© 2005- 王朝網路 版權所有