序列模式挖掘 (sequence pattern mining )是指挖掘相对时间或其他模式出现频率高的模式。一个序列模式的例子是“ 9 个月以前购买奔腾 PC 的客户很可能在一个月内订购新的 CPU 芯片”。由于很多商业交易、电传记录、天气数据和生产过程都是时间序列数据,在针对目标市场、客户吸引、气象预报等的数据分析中,序列模式挖掘是很有用途的。
n 序列模式的概念最早是由Agrawal和Srikant 提出的。
n 动机:大型连锁超市的交易数据有一系列的用户事务数据库,每一条记录包括用户的ID,事务发生的时间和事务涉及的项目。如果能在其中挖掘涉及事务间关联关系的模式,即用户几次购买行为间的联系,可以采取更有针对性的营销措施。
n 例:一个事务数据库,一个事务代表一笔交易,一个单项代表交易的商品,单项属性中的数字记录的是商品ID
序列模式定义给定一个由不同序列组成的集合,其中,每个序列由不同的元素按顺序有序排列,每个元素(交易)由不同项目组成,同时给定一个用户指定的最小支持度阈值,序列模式挖掘就是找出所有的频繁子序列,即该子序列在序列集中的出现频率不低于用户指定的最小支持度阈值。
符号化表示项目集(Itemset)是各种项目组成的集合
序列(Sequence)是不同项目集(ItemSet)的有序排列,序列s可以表示为s = <s1s2…sl>,sj(1 <= j <= l)为项目集(Itemset),也称为序列s的元素
序列的元素(Element)可表示为(x1x2…xm), xk(1 <= k <= m)为不同的项目,如果一个序列只有一个项目,则括号可以省略
一个序列包含的所有项的个数称为序列的长度。长度为l的序列记为l-序列
序列模式 VS 关联规则问题
序列模式挖掘
关联规则挖掘
数据集
序列数据库
事务数据库
关注点
单项间在同一事务内以及事务间的关系
单项间在同一事务内的关系
应用领域客户购买行为模式预测
Web访问模式预测
疾病诊断
网络入侵检测