items
: things sold in supermarket
buskets
:each of which is s small set of items
support
:s, it means at least s baskets which contain sets of items(frequent items) in all baskets.
confidence
: (i,j) –> (i,j,k).后者比上前者的概率,可以认为是前者发生后后者发生的条件概率。
baskets 不能包含太多的items,因为每个basket的时间与其包含的item是quadratic的
如果找到满足概率大于p的所有频繁项集呢?
A:对每一个bucket遍历所有可能的pair。
思路: 1. 需要的频繁项集不会太多,所以一般专注于最容易出现的二项集合。 2. 注意单个basket不能有太多的item,否则算法对于单个basket的迭代时间是quartic的,但是可以有很多个basket。
(i,j,n)的计数方式 还有(n)的计数方式
sets only can be frequent only if the subsets are frequent.
So, at first, we find frequent items in 1, then find pairs in 2 using the information before.