给定
两个项集 , 并且有
;
支持度 :
的支持度是
两个项集在数据库
中 同时出现的概率 , 即
置信度 :
的置信度度是
出现的前提下 ,
项集在数据库
中同时出现的概率 , 即
一般情况下 置信度 大于 支持度 ;
支持度用于找出 频繁项集 ;
置信度用于找出 关联规则 ;
项集
的 支持度
, 大于等于 指定的 最小支持度阈值
,
则称该 项集
为 频繁项集 ,
又称为 频繁项目集 ;
项集
的 支持度
, 小于 指定的 最小支持度阈值
,
则称该 项集
为 非频繁项集 ,
又称为 非频繁项目集 ;
原始数据集
,
项集
,
项集
,
,
项集
, 这些项集都是候选项集 ,
根据 原始数据集
, 创造
项集
, 然后对
执行 数据集扫描函数 , 找到其中的 频繁
项集
,
根据 频繁
项集
, 创造
项集
, 然后对
执行 数据集扫描函数 , 找到其中的 频繁
项集
,
根据 频繁
项集
, 创造
项集
, 然后对
执行 数据集扫描函数 , 找到其中的 频繁
项集
,
参考博客 : 【数据挖掘】关联规则挖掘 Apriori 算法 ( Apriori 算法过程 | Apriori 算法示例 )
如下事物数据库 , 最小支持度
, 最小置信度
;
TID | Item |
---|---|
T1 | { M , O , N , K , E , Y } \rm { M, O, N , K, E, Y } {M,O,N,K,E,Y} |
T2 | { D , O , N , K , E , Y } \rm { D, O, N , K, E, Y } {D,O,N,K,E,Y} |
T3 | { M , A , K , E } \rm { M, A , K, E } {M,A,K,E} |
T4 | { M , U , C , K , Y } \rm { M, U, C , K, Y } {M,U,C,K,Y} |
T5 | { C , O , O , K , I , E } \rm { C, O, O , K, I , E } {C,O,O,K,I,E} |
T2
T3
T4
T5
( 1 ) 使用 Apriori 算法找出所有频繁项集 ;
( 2 ) 写出关联规则 ;
( 1 ) 使用 Apriori 算法找出所有频繁项集 :
根据原始数据集
创造
项集
, 如下 :
Item | 支持度 |
---|---|
{ A } \rm { A } {A} | 20 % \rm 20\% 20% |
{ C } \rm { C } {C} | 40 % \rm 40\% 40% |
{ E } \rm { E } {E} | 80 % \rm 80\% 80% |
{ I } \rm { I } {I} | 20 % \rm 20\% 20% |
{ K } \rm { K } {K} | 80 % \rm 80\% 80% |
{ M } \rm { M } {M} | 60 % \rm 60\% 60% |
{ N } \rm { N } {N} | 40 % \rm 40\% 40% |
{ O } \rm { O } {O} | 60 % \rm 60\% 60% |
{ U } \rm { U } {U} | 20 % \rm 20\% 20% |
{ Y } \rm { Y } {Y} | 60 % \rm 60\% 60% |
对
项集
执行数据集扫描函数 , 找到频繁
项集
, 即筛选出支持度大于等于
的
项集 :
Item | 支持度 |
---|---|
{ E } \rm { E } {E} | 80 % \rm 80\% 80% |
{ K } \rm { K } {K} | 80 % \rm 80\% 80% |
{ M } \rm { M } {M} | 60 % \rm 60\% 60% |
{ O } \rm { O } {O} | 60 % \rm 60\% 60% |
{ Y } \rm { Y } {Y} | 60 % \rm 60\% 60% |
根据 频繁
项集
创造
项集
, 如下 :
Item | 支持度 |
---|---|
{ E , K } \rm { E , K } {E,K} | 80 % \rm 80\% 80% |
{ E , M } \rm { E, M } {E,M} | 40 % \rm 40\% 40% |
{ E , O } \rm { E,O } {E,O} | 60 % \rm 60\% 60% |
{ E , Y } \rm { E,Y } {E,Y} | 40 % \rm 40\% 40% |
{ K , M } \rm { K,M } {K,M} | 40 % \rm 40\% 40% |
{ K , O } \rm { K,O } {K,O} | 60 % \rm 60\% 60% |
{ K , Y } \rm { K,Y } {K,Y} | 60 % \rm 60\% 60% |
{ M , O } \rm { M,O } {M,O} | 20 % \rm 20\% 20% |
{ M , Y } \rm { M,Y } {M,Y} | 40 % \rm 40\% 40% |
{ O , Y } \rm { O,Y } {O,Y} | 40 % \rm 40\% 40% |
对
项集
执行数据集扫描函数 , 找到频繁
项集
, 即筛选出支持度大于等于
的
项集 :
Item | 支持度 |
---|---|
{ E , K } \rm { E , K } {E,K} | 80 % \rm 80\% 80% |
{ E , O } \rm { E,O } {E,O} | 60 % \rm 60\% 60% |
{ K , O } \rm { K,O } {K,O} | 60 % \rm 60\% 60% |
{ K , Y } \rm { K,Y } {K,Y} | 60 % \rm 60\% 60% |
根据 频繁
项集
创造
项集
, 如下 :
Item | 支持度 |
---|---|
{ E , K , O } \rm { E , K, O } {E,K,O} | 60 % \rm 60\% 60% |
{ E , O , Y } \rm { E,O , Y} {E,O,Y} | 40 % \rm 40\% 40% |
{ K , O , Y } \rm { K,O , Y} {K,O,Y} | 40 % \rm 40\% 40% |
对
项集
执行数据集扫描函数 , 找到频繁
项集
, 即筛选出支持度大于等于
的
项集 :
Item | 支持度 |
---|---|
{ E , K , O } \rm { E , K, O } {E,K,O} | 60 % \rm 60\% 60% |
最终得出结果 :
频繁
项集 :
频繁
项集 :
频繁
项集 :
( 2 ) 写出关联规则 ;
置信度大于等于
就说明有关联规则 ;
基于 频繁
项集
的关联规则 :
| 置信度 |
---|---|
E ⇒ K \rm E \Rightarrow K E⇒K | E K E = 4 4 = 1 \rm \cfrac{EK}{E} = \cfrac{4}{4} = 1 EEK=44=1 |
K ⇒ E \rm K \Rightarrow E K⇒E | E K K = 4 5 = 0.8 \rm \cfrac{EK}{K} = \cfrac{4}{5} = 0.8 KEK=54=0.8 |
E ⇒ O \rm E \Rightarrow O E⇒O | E O E = 3 4 = 0.75 \rm \cfrac{EO}{E} = \cfrac{3}{4} = 0.75 EEO=43=0.75 |
O ⇒ E \rm O\Rightarrow E O⇒E | E O O = 3 3 = 1 \rm \cfrac{EO}{O} = \cfrac{3}{3} = 1 OEO=33=1 |
K ⇒ O \rm K \Rightarrow O K⇒O | K O K = 3 5 = 0.6 \rm \cfrac{KO}{K} = \cfrac{3}{5} = 0.6 KKO=53=0.6 |
O ⇒ K \rm O \Rightarrow K O⇒K | K O O = 3 3 = 1 \rm \cfrac{KO}{O} = \cfrac{3}{3} = 1 OKO=33=1 |
K ⇒ Y \rm K \Rightarrow Y K⇒Y | E K E = 3 5 = 0.6 \rm \cfrac{EK}{E} = \cfrac{3}{5} = 0.6 EEK=53=0.6 |
Y ⇒ K \rm Y \Rightarrow K Y⇒K | E K E = 3 3 = 1 \rm \cfrac{EK}{E} = \cfrac{3}{3} = 1 EEK=33=1 |
基于 频繁
项集
的关联规则 :
| 置信度 |
---|---|
E ⇒ K , O \rm E \Rightarrow K,O E⇒K,O | E K O E = 3 4 = 0.75 \rm \cfrac{EKO}{E} = \cfrac{3}{4} = 0.75 EEKO=43=0.75 |
K , O ⇒ E \rm K,O \Rightarrow E K,O⇒E | E K O K O = 3 3 = 1 \rm \cfrac{EKO}{KO} = \cfrac{3}{3} = 1 KOEKO=33=1 |
K ⇒ E , O \rm K \Rightarrow E,O K⇒E,O | K E O K = 3 5 = 0.6 \rm \cfrac{KEO}{K} = \cfrac{3}{5} = 0.6 KKEO=53=0.6 |
E , O ⇒ K \rm E,O\Rightarrow K E,O⇒K | E O K E O = 3 3 = 1 \rm \cfrac{EOK}{EO} = \cfrac{3}{3} = 1 EOEOK=33=1 |
O ⇒ E , K \rm O \Rightarrow E,K O⇒E,K | O E K O = 3 4 = 0.75 \rm \cfrac{OEK}{O} = \cfrac{3}{4} = 0.75 OOEK=43=0.75 |
E , K ⇒ O \rm E,K \Rightarrow O E,K⇒O | E K O E K = 3 4 = 0.75 \rm \cfrac{EKO}{EK} = \cfrac{3}{4} = 0.75 EKEKO=43=0.75 |
根据置信度
关联规则有 :
关联规则 :
,
,
,
,
;
关联规则 :
,
;