这几天我对数据挖掘中的关联挖掘有不少的疑问,看了教材上的Apriori算法。但是在实际挖掘算法的实现上遇到了一些问题。Apriori算法在《数据挖掘:概念与技术》的教材上演示的是针对事务数据的挖掘,类似这样的{I1,I2,I3}这样的事务数据集,并不要求I1,I2,I3之间是在同一张表上。而挖掘多维数据,那么是指的多维属性,比如 buys(X,"beef") ^ buys(X,"beer") => buys(X,"fork"),买了牛肉和啤酒的人多半会买叉子这个规则上,都是buys这个属性下的数据,所以还是单维。而书上的例子,age(X,"20...29") ^ income(X,"20K...29K") => buys(X,"CD_player")这就是一个多个属性,多维的关联规则。 而age,income,buys这几个属性可能在多张数据表上。
教材上主要由Apriori算法来讲解关联挖掘部分,其中是以事务数据来挖掘的。开始实施Apriori算法的时候,我面对的是一张张表,而不是事务数据,就不太明白如何使用Apriori了。后来考虑了一下,把表中的信息提取出来,融合成一个个的事务,那么进行关联挖掘的时候,对于Apriori算法来说,觉得根本不需要理会这个到底是多维还是单维的事务,多维的数据其实可以融合成一个事务。这只是我初步的想法,后来我就询问了毕业设计指导老师,下面是我和指导老师的通信:
------------------------------------------------------
XX老师:
我是唐良,是计算机学院2002级本科毕业设计分配在唐老师门下做的。上个学期,已经定下来是做教务处的教务管理数据挖掘系统,你当时也给我们指导过一次。现在我们在《数据挖掘概念和技术》的时候,遇到一些问题,想请教一下。
1. 在第六章讲解挖掘关联规则的时候后半部分,讲解了挖掘多维关联规则的时候,似乎是讲解挖掘量化数据的办法的嘛。而多维关联规则,前面的Apriori算法本省就可以产生多维的啊。比如找到频繁项{I1, I2, I3}就有可能导出 I1 ^ I2 => I3,这不就是二维的关联规则了吗?
2. 我看书上说的那些关联挖掘,都是基于一个事务表,这个表和实际的数据库中关系表似乎不一样吧。事务表中,一次事务的项可以是多个,个数可以不同,而实际的关系数据表中,字段个数都是固定的啊。那么就有这样一个问题,在挖掘关联规则的时候,一个事务可能并不能简单对应书上的那种一个表的一个Record记录,是不是我需要自己在扫描数据库的时候再构造一个事务处理,然后再交给关联挖掘算法?
谢谢!
唐良
2006-2-22
------------------------------------------------------
唐良,你好!
对于第1个问题,在关联规则挖掘中,所指的“维”实际上是指“属性”,那么在你举的例子中“I1 ^ I2 => I3”,I1、I2或I3都是一个属性下的项,所以仍然是单维关联挖掘。
对于第2个问题,这个问题实际中怎样操作数据库的数据来进行数据挖掘,这个不好说,但有一点可以肯定数据是需要预处理的,那么在预处理阶段,除了要做些去除“噪声”,转换格式,啊等等操作外,还要把数据转换成易于算法处理的格式。正如你所发现的问题:如果象书上例子那样描述数据,算法很难处理,起码不易扩展事务项。实际上,真正在做关联规则分析时,我们会把数据转换成另外一种格式,我给你传一个附件,是一个用于关联规则算法的数据,(第一列和第二列一样,都是指事务项编号;第三列是每项事务所含的事务),实际上,在进行分类算法分析时也是一样。
-----------------------------------------------------
XX老师:
我又看了一下书,大致明白了多维和单维的关系。但是我觉得,Apriori挖掘的是针对事务的数据啊,即使是多维的数据,在数据预处理的时候就可以把相关的几个属性数据合并到一个事务数据项啊。比如书上的例子,age(X,"20...29") ^ income(X,"20K...29K") => buys(X,"CD_player")这个。虽然age,income,buys都是不同属性,不同的数据表内,但是我可以根据人物X,把几个数据合并成一个事务数据项啊,{ age, income, buys}这个样子,那么我就是针对这种事务数据项来使用Apriori算法来挖就是了啊。你看我想的对不对?
书上的那个多维规则, age(X,"20...29") ^ income(X,"20K...29K") => buys(X,"CD_player")。age,income,buys三个属性可能存放在不同的数据表内,但是必然有相互索引关联的关键字。我的想法就是把三个数据都打成一个事务数据表,比如说:
{ age("20...29"), income("20K...29K"), buys("CD_player") }
{ age("10...19"), income("0...5K"), buys("CD_player") }
{ age("20...29"), income("50K...80K"), buys("Computer") }
{ age("30...39"), income("30K...40K"), buys("TV") }
...
你看这样行不行?
唐良
2006-2-23
-----------------------------------------------------
唐良,你好!
你在无意识(或有意)中做了数据挖掘的另一个研究方向,属性融合。
就象你在上一封邮件中谈到的那个例子一样,如果age属性事先被分成了3个量化区间(那么令为I1, I2, I3),income属性被划分成了若干区间(I4,...Ik),buys有两个值(Ik+1, Ik+2),那么我们就可以用Apriori算法来处理了,这实际上是做了一个映射,把多维的特征转换成了一维,我认为是可以的。