前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >关联规则 python实现Apriori算法

关联规则 python实现Apriori算法

作者头像
小小程序员
发布2023-12-18 12:24:38
1340
发布2023-12-18 12:24:38
举报
文章被收录于专栏:小小程序员——DATA

python实现Apriori算法

根据我们上个博客的例子

在这里插入图片描述
在这里插入图片描述
代码语言:javascript
复制
def load_dataset():
    # 载入数据集的函数
    dataset = [
        ['A', '', 'D'],
        ['B', 'C', 'E'],
        ['A', 'B', 'C', 'E'],
        ['B', 'E']
    ]
    return dataset

def create_candidates(dataset):
    # 生成1项集的候选集函数
    candidates = []
    for transaction in dataset:
        for item in transaction:
            if [item] not in candidates:
                candidates.append([item])
    candidates.sort()
    return list(map(frozenset, candidates))

def scan_dataset(dataset, candidates, min_support):
    # 扫描数据集,计算候选集的支持度
    item_count = {}  # 记录候选集出现的次数
    for transaction in dataset:
        for candidate in candidates:
            if candidate.issubset(transaction):
                item_count[candidate] = item_count.get(candidate, 0) + 1

    num_transactions = len(dataset)
    frequent_set = []  # 存储频繁项集
    support_data = {}  # 存储支持度数据
    for item in item_count:
        support = item_count[item] / num_transactions
        if support >= min_support:
            frequent_set.append(item)
        support_data[item] = support

    return frequent_set, support_data

def generate_next_candidates(prev_frequent_set, k):
    # 生成下一轮的候选集函数
    next_candidates = []  # 存储下一轮的候选集
    num_frequent_set = len(prev_frequent_set)

    for i in range(num_frequent_set):
        for j in range(i + 1, num_frequent_set):
            item1 = list(prev_frequent_set[i])[:k - 2]
            item2 = list(prev_frequent_set[j])[:k - 2]

            item1.sort()
            item2.sort()

            if item1 == item2:
                next_candidate = prev_frequent_set[i] | prev_frequent_set[j]
                next_candidates.append(next_candidate)

    return next_candidates

def apriori(dataset, min_support=0.5):
    # Apriori 算法主函数
    candidates = create_candidates(dataset)
    dataset = list(map(set, dataset))
    frequent_set1, support_data = scan_dataset(dataset, candidates, min_support)
    frequent_sets = [frequent_set1]
    k = 2

    while len(frequent_sets[k - 2]) > 0:
        candidates = generate_next_candidates(frequent_sets[k - 2], k)
        frequent_set, support_data_k = scan_dataset(dataset, candidates, min_support)
        support_data.update(support_data_k)
        frequent_sets.append(frequent_set)
        k += 1

    return frequent_sets, support_data

# 示例用法
dataset = load_dataset()
frequent_sets, support_data = apriori(dataset, min_support=0.5)

print("频繁项集:")
for i, itemset in enumerate(frequent_sets):
    if itemset:
        print(f"第 {i + 1} 轮: {itemset}")

print("\n支持度数据:")
for item, support in support_data.items():
    print(f"{item}: {support}")

结果

频繁项集: 第 1 轮: [frozenset({‘A’}), frozenset({‘B’}), frozenset({‘C’}), frozenset({‘E’})] 第 2 轮: [frozenset({‘C’, ‘B’}), frozenset({‘E’, ‘B’}), frozenset({‘C’, ‘E’})] 第 3 轮: [frozenset({‘C’, ‘E’, ‘B’})] 支持度数据: frozenset({‘A’}): 0.5 frozenset({‘D’}): 0.25 frozenset({‘B’}): 0.75 frozenset({‘C’}): 0.5 frozenset({‘E’}): 0.75 frozenset({‘C’, ‘B’}): 0.5 frozenset({‘E’, ‘B’}): 0.75 frozenset({‘C’, ‘E’}): 0.5 frozenset({‘A’, ‘B’}): 0.25 frozenset({‘C’, ‘A’}): 0.25 frozenset({‘A’, ‘E’}): 0.25 frozenset({‘C’, ‘E’, ‘B’}): 0.5

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2023-12-16,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • python实现Apriori算法
相关产品与服务
对象存储
对象存储(Cloud Object Storage,COS)是由腾讯云推出的无目录层次结构、无数据格式限制,可容纳海量数据且支持 HTTP/HTTPS 协议访问的分布式存储服务。腾讯云 COS 的存储桶空间无容量上限,无需分区管理,适用于 CDN 数据分发、数据万象处理或大数据计算与分析的数据湖等多种场景。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档