那如何定义和表示频繁项集和关联规则呢?这里引入支持度和可信度(置信度)。
支持度:一个项集的支持度被定义为数据集中包含该项集的记录所占的比例,上图中,豆奶的支持度为4/5,(豆奶、尿布)为3/5。...那么如何得可能被一起购买的商品的组合?
上图显示了物品之间所有可能的组合,从上往下一个集合是 Ø,表示不包含任何物品的空集,物品集合之间的连线表明两个或者更多集合可以组合形成一个更大的集合。...如下图所示:
频繁项集:
主要步骤:
首先会生成所有单个物品的项集列表
扫描交易记录来查看哪些项集满足最小支持度要求,那些不满足最小支持度的集合会被去掉
对剩下的集合进行组合以生成包含两个元素的项集...():
return [[1, 3, 4], [2, 3, 5], [1, 2, 3, 5], [2, 5]]
# 将所有元素转换为frozenset型字典,存放到列表中
def createC1...= []
for i in range(1, len(L)): # 从为2个元素的集合开始
for freqSet in L[i]:
# 只包含单个元素的集合列表