关联规则数据挖掘中基于子集的规则过滤

是一种用于筛选和过滤关联规则的方法。在关联规则数据挖掘中，通过分析数据集中的项集之间的关联关系，可以发现其中的规律和模式。而基于子集的规则过滤则是在已经发现的关联规则集合中，通过考虑规则的子集来进行筛选和过滤，以提高规则的质量和准确性。

基于子集的规则过滤可以通过以下步骤实现：

生成初始的关联规则集合：使用关联规则挖掘算法（如Apriori算法）从数据集中生成初始的关联规则集合。
计算规则的支持度和置信度：对于每条关联规则，计算其在数据集中的支持度和置信度。支持度表示包含规则中所有项集的比例，置信度表示在前提条件下出现结论的概率。
进行子集过滤：对于每条关联规则，生成其所有可能的子集。然后，对于每个子集，计算其支持度和置信度。根据预先设定的阈值，筛选掉支持度或置信度低于阈值的子集。
评估规则的质量：对于通过子集过滤的规则，可以进一步评估其质量。常用的评估指标包括提升度、全置信度等。

基于子集的规则过滤在关联规则数据挖掘中具有以下优势：

提高规则的准确性：通过考虑规则的子集，可以筛选掉一些不具有足够支持度和置信度的规则，从而提高规则的准确性。
减少规则的数量：通过过滤掉支持度或置信度低于阈值的子集，可以减少生成的规则数量，使得规则集更加精简和易于理解。
提高规则的可解释性：通过评估规则的质量指标，可以进一步筛选出具有较高提升度或全置信度的规则，这些规则更具有实际应用的意义和解释性。

基于子集的规则过滤在各种领域都有广泛的应用场景，例如市场篮子分析、推荐系统、网络流量分析等。在云计算领域中，可以利用基于子集的规则过滤来挖掘用户行为模式、优化资源调度和提高系统性能。

腾讯云提供了一系列与数据挖掘和云计算相关的产品，例如云数据库 TencentDB、云服务器 CVM、云原生容器服务 TKE、人工智能平台 AI Lab 等。您可以通过访问腾讯云官方网站（https://cloud.tencent.com/）了解更多产品信息和详细介绍。

相关·内容

数据挖掘——关联规则挖掘

《数据挖掘》国防科技大学《数据挖掘》青岛大学数据挖掘之关联规则挖掘关联规则挖掘（Association Rule Mining）最早是由Agrawal等人提出。...定义关联规则是描述在一个交易中物品之间同时出现的规律的知识模式，更确切的说，关联规则是通过量化的数字描述物品X的出现对物品Y的出现有多大的影响。...形式化描述 • 关联规则挖掘的交易数据集记为D • D ＝｛T1，T2，…，Tk，…,Tn｝，Tk（k＝1,2,…，n）称为交易，每个交易有唯一的标识，记作TID。...基本概念挖掘关联规则在给定一个交易数据集D上，挖掘关联规则问题就是产生支持度和置信度分别大于等于用户给定的最小支持度阈值和最小置信度阈值的关联规则。...S1是S2的超集，若S1中一定有S2中没有的元素，则S1是S2的真超集，反过来S2是S1的真子集。 2.

1.8K1 0

【数据挖掘】关联规则挖掘 Apriori 算法 ( 关联规则 | 数据项支持度 | 关联规则支持度 )

文章目录一、关联规则二、数据项支持度三、关联规则支持度参考博客 : 【数据挖掘】关联规则挖掘 Apriori 算法 ( 关联规则简介 | 数据集与事物 Transaction 概念 |...项 Item 概念 | 项集 Item Set | 频繁项集 | 示例解析 ) 一、关联规则 ---- 关联规则是指 : 某些项集出现在一个事务中 , 可以推导出 : 另外一些项集也出现在同一个...也出现在购买清单事务 2 中 ; 二、数据项支持度 ---- 支持度表示数据项 ( Item ) 在事务 ( Transaction ) 中的出现频度 ; 支持度公式 : \rm Support...D 中含有项集 \rm X 的事务个数 ; \rm count(D) 指的是数据集 \rm D 的事务总数 ; 示例 : 【数据挖掘】关联规则挖掘 Apriori 算法 ( 关联规则简介...(X)}{count (D)} \rm Support (X) = \cfrac{4}{5} 三、关联规则支持度 ---- 关联规则 \rm X \Rightarrow Y 的支持度 , 等于

1.2K0 1

【数据挖掘】关联规则挖掘 Apriori 算法 ( 频繁项集 | 非频繁项集 | 强关联规则 | 弱关联规则 | 发现关联规则 )

文章目录一、频繁项集二、非频繁项集三、强关联规则四、弱关联规则五、发现关联规则参考博客 : 【数据挖掘】关联规则挖掘 Apriori 算法 ( 关联规则简介 | 数据集与事物...Transaction 概念 | 项 Item 概念 | 项集 Item Set | 频繁项集 | 示例解析 ) 【数据挖掘】关联规则挖掘 Apriori 算法 ( 关联规则 | 数据项支持度 | 关联规则支持度...) 【数据挖掘】关联规则挖掘 Apriori 算法 ( 置信度 | 置信度示例 ) 一、频繁项集 ---- 项集 \rm X 的支持度 \rm support(X) , 大于等于指定的...(X) , 小于指定的最小支持度阈值 \rm minsup , 则称该项集 \rm X 为非频繁项集 , 又称为非频繁项目集 ; 三、强关联规则 ---- 项集 \rm X 是...---- 发现关联规则 : 从数据集 \rm D 中 , 发现支持度 \rm support , 置信度 \rm confidence , 大于等于给定最小阈值的强关联规则 ;

1.7K0 1

基于关联规则算法的电商数据挖掘

大家好，我是Peter~ 本文是基于机器学习的关联规则方法对IC电子产品的数据挖掘，主要内容包含：数据预处理：针对数据去重、缺失值处理、时间字段处理、用户年龄分段等词云图制作：不同用户对不同品牌brand...和种类category_code的偏好关联规则挖掘：针对不同性别、不同品牌的关联信息挖掘本文关键词：电商、关联规则、机器学习、词云图数据基本信息导入数据 In 1: import pandas...sklearn.preprocessing import MinMaxScaler import warnings warnings.filterwarnings("ignore") In 2: # 数据中存在中文...SymbolType.DIAMOND) .set_global_opts(title_opts=opts.TitleOpts(title="商品种类词云图")) ) c.render_notebook() 基于关联规则建模...从用户搜索的产品种类来看，用户更关注的是smartphone、kitchen、electronics；也就说：智能手机、厨房用品和电子产品是用户的关注点从关联规则挖掘到的信息来看：男性/女性的关联产品信息可能是

8340 0

数据挖掘|关联规则Apriori算法

01 — 关联规则挖掘背景和基本概念如下所示的数据集，表中的每一行代表一次购买清单，注意我们只关心记录出现与否，不关心某条记录购买了几次，如购买十盒牛奶也只计一次。...数据记录的所有项的集合称为总项集，上表中的总项集： S={牛奶,面包,尿布,啤酒,鸡蛋,可乐} 关联规则就是有关联的规则，形式是这样定义的：两个不相交的非空集合X、Y，如果有 X->Y，就说X-->Y...关联规则的强度用支持度(support)和自信度(confidence)来描述。支持度 support(X-->Y) = 集合X与集合Y中的项在一条记录中同时出现的次数 / 数据记录的个数。...总结支持度和自信度越高，说明规则越强，关联规则挖掘就是挖掘出满足一定强度的规则。...02 — 关联规则挖掘的之穷举算法关联规则挖掘给定一个交易数据集T，找出其中所有支持度 support >= min_support、自信度confidence >= min_confidence

1.5K5 0

数据挖掘系列（3）--关联规则评价

前面我们讨论的关联规则都是用支持度和自信度来评价的，如果一个规则的自信度高，我们就说它是一条强规则，但是自信度和支持度有时候并不能度量规则的实际意义和业务关注的兴趣点。...一个误导我们的强规则看这样一个例子，我们分析一个购物篮数据中购买游戏光碟和购买影片光碟之间的关联关系。...相关性系数lift 从上面游戏和影片的例子中，我们可以看到游戏和影片不是正相关的，因此用相关性度量关联规则可以过滤这样的规则，对于规则A—>B或者B—>A，lift(A,B)=P(A交B)/(...总结　　本文介绍了9个关联规则评价的准则，其中全自信度、最大自信度、Kulc、cosine，Leverage是不受空值影响的，这在处理大数据集是优势更加明显，因为大数据中想MC这样的空记录更多，根据分析我们推荐使用...待续…… 来源：www.cnblogs.com/fengfenggirl 关联文章 1.数据挖掘系列（1）关联规则挖掘基本概念与Aprior算法 2.数据挖掘系列（2）--关联规则FpGrowth算法

1.4K9 0

关于数据挖掘关联规则的Oracle实现

呵呵，前几天拿到了数据挖掘基础教程一书，感觉部分算法是基于统计学的原理的，而统计学是可以通过Oracle来实现。...关于数据挖掘关联规则的介绍，可以参见：http://baike.baidu.com/view/1076817.htm?...fr=ala0_1 关联规则是形如X→Y的蕴涵式，其中且， X和Y分别称为关联规则的先导(antecedent或left-hand-side, LHS)和后继(consequent或 right-hand-side...关联规则在D中的支持度(support)是D中事务同时包含X、Y的百分比，即概率；=X^Y/D 置信度(confidence)是包含X的事务中同时又包含Y的百分比，即条件概率。...=(X^Y)/X 关联规则是有趣的，如果满足最小支持度阈值和最小置信度阈值。

3514 0

数据挖掘系列（2）--关联规则FpGrowth算法

上一篇数据挖掘系列（1）关联规则挖掘基本概念与Aprior算法介绍了关联规则挖掘的一些基本概念和经典的Apriori算法，Aprori算法利用频繁集的两个特性，过滤了很多无关的集合，效率提高不少，但是我们发现...FpGrowth算法通过构造一个树结构来压缩数据记录，使得挖掘频繁项集只需要扫描两次数据记录，而且该算法不需要生成候选集合，所以效率会比较高。...Step 2：再次扫描数据记录，对每条记录中出现在Step 1产生的表中的项，按表中的顺序排序。...至此，整个FpTree就构造好了，在下面的挖掘过程中我们会看到表头和线索的作用。...下一篇将介绍，关联规则的评价标准，欢迎持续关注。

1.2K9 0

数据挖掘系列（4）使用weka做关联规则挖掘

前面几篇介绍了关联规则的一些基本概念和两个基本算法，但实际在商业应用中，写算法反而比较少，理解数据，把握数据，利用工具才是重要的，前面的基础篇是对算法的理解，这篇将介绍开源利用数据挖掘工具weka进行管理规则挖掘...arff稀疏数据集　　我们做关联规则挖掘，比如购物篮分析，我们的购物清单数据肯定是相当稀疏的，超市的商品种类有上10000种，而每个人买东西只会买几种商品，这样如果用矩阵形式表示数据显然浪费了很多的存储空间...，进行关联规则挖掘时，我们可以先把商品名字映射为id号，挖掘的过程只有id号就是了，到规则挖掘出来之后再转回商品名就是了，retail.txt是一个转化为id号的零售数据集，数据集的前面几行如下：　　...car 如果设为真，则会挖掘类关联规则而不是全局关联规则。2. classindex 类属性索引。如果设置为-1，最后的属性被当做类属性。3....来源：www.cnblogs.com/fengfenggirl 系列好文：数据挖掘系列（1）关联规则挖掘基本概念与Aprior算法数据挖掘系列（2）--关联规则FpGrowth算法数据挖掘系列

2.7K6 0

数据挖掘系列（5）使用mahout做海量数据关联规则挖掘

上一篇介绍了用开源数据挖掘软件weka做关联规则挖掘，weka方便实用，但不能处理大数据集，因为内存放不下，给它再多的时间也是无用，因此需要进行分布式计算，mahout是一个基于hadoop的分布式数据挖掘开源项目...掌握了关联规则的基本算法和使用，加上分布式关联规则挖掘后，就可以处理基本的关联规则挖掘工作了，实践中只需要把握业务，理解数据便可游刃有余。...，但在此基础上提取关联规则已经不是难事。...待续…… 来源：www.cnblogs.com/fengfenggirl 关联好文：数据挖掘系列（1）关联规则挖掘基本概念与Aprior算法数据挖掘系列（2）--关联规则FpGrowth算法数据挖掘系列...（3）--关联规则评价数据挖掘系列（4）使用weka做关联规则挖掘

7634 0

数据挖掘实战：关联规则挖掘及Apriori实现购物推荐

关联规则是数据挖掘的一个重要技术，用于从大量数据中挖掘出有价值的数据项之间的相关关系。...关联规则挖掘的最经典的例子就是沃尔玛的啤酒与尿布的故事，通过对超市购物篮数据进行分析，即顾客放入购物篮中不同商品之间的关系来分析顾客的购物习惯，发现美国妇女们经常会叮嘱丈夫下班后为孩子买尿布，30%-40%...3.2基本概念关联规则挖掘是寻找给定数据集中项之间的有趣联系。...然后如下图所示，对L2中的项集进行组合，其中超过三项的进行过滤，最后计算得到L3项集。最后对计算置信度，如下图所示。 Apriori算法弊端：需要多次扫描数据表。...故：Jiawei Han等人在2000年提出了一种基于FP-树的关联规则挖掘算法FP_growth，它采取“分而治之”的策略，将提供频繁项目集的数据库压缩成一棵频繁模式树（FP-树）。

3K6 0

关联规则挖掘：Apriori算法的深度探讨

这种算法在数据挖掘、机器学习、市场篮子分析等多个领域都有广泛的应用。什么是关联规则挖掘？关联规则挖掘是数据挖掘中的一个重要分支，其目标是发现在一个数据集中变量间存在的有趣的关联或模式。...本节将详细介绍关联规则挖掘的基础概念，包括项集、支持度、置信度、提升度以及如何使用这些概念来挖掘有用的关联规则。项和项集项（Item）: 在关联规则挖掘中，项通常指数据集中的一个元素。...Apriori原理 Apriori原理是Apriori算法的核心，它基于一个简单但重要的观察：一个项集是频繁的，那么它的所有子集也必须是频繁的。...第一步是计算所有单一商品（如“牛奶”，“面包”等）在这5笔交易中的出现次数，并筛选出那些出现次数达到最小支持度的商品。关联规则生成对于每一个频繁项集，生成所有可能的非空子集。...例子：在一个分布式系统中，可以将数据集划分为多个子集，并在各个节点上并行计算支持度和生成频繁项集。支持近似挖掘对于一些应用场景，完全精确的频繁项集挖掘可能不是必需的。

7552 0

【数据挖掘】关联规则挖掘 Apriori 算法 ( 置信度 | 置信度示例 )

文章目录一、置信度二、置信度示例参考博客 : 【数据挖掘】关联规则挖掘 Apriori 算法 ( 关联规则简介 | 数据集与事物 Transaction 概念 | 项 Item 概念 |...项集 Item Set | 频繁项集 | 示例解析 ) 【数据挖掘】关联规则挖掘 Apriori 算法 ( 关联规则 | 数据项支持度 | 关联规则支持度 ) 一、置信度 ---- 关联规则 \rm...X \Rightarrow Y 的置信度 , 表示数据集 \rm D 中包含 \rm X 项集的事物 , 同时有多大可能性包含 \rm Y 项集 , 等于项集 \rm X \cup...001 奶粉 , 莴苣 002 莴苣 , 尿布 , 啤酒 , 甜菜 003 奶粉 , 尿布 , 啤酒 , 橙汁 004 奶粉 , 莴苣 , 尿布 , 啤酒 005 奶粉 , 莴苣 , 尿布 , 橙汁求关联规则...: \rm count (X) = 4 \rm count(D) 指的是数据集 \rm D 的事务总数 ; 得出 \rm count(D) = 5 则计算支持度 : \rm Support (X

5800 0

R语言关联规则挖掘apriori算法挖掘评估汽车性能数据

其他的应用还包括价目表设计、商品促销、商品的排放和基于购买模式的顾客划分。本文运用Apriori算法帮助客户对汽车性能相关数据进行数据挖掘，探索变量间的关联性。为汽车厂商分类汽车性能提供参考。...数据分析框架本文使用关联规则挖掘apriori算法来发现车的性能价格等属性的常见模式和规则：1 数据预处理：包括读取数据，清理缺失数据，将数据转化成关联挖掘数据类型。...2 查看频繁项集，发现合适的支持度和置信度阈值用于后续的关联规则挖掘。3 查看关联规则挖掘结果，发现有价值的规则。具体数据分析过程读取数据表原始数据查看数据，V1-V7为相应的属性。...----最受欢迎的见解1.Python中的Apriori关联算法-市场购物篮分析2.R语言绘制生存曲线估计|生存分析|如何R作生存曲线图3.用关联规则数据挖掘探索药物配伍中的规律4.通过Python中的...Apriori算法进行关联规则挖掘5.用关联规则数据挖掘探索药物配伍中的规律6.采用SPSS Modeler的Web复杂网络对所有腧穴进行分析7.R语言如何在生存分析与COX回归中计算IDI，NRI指标

3511 0

【数据挖掘】关联规则挖掘 Apriori 算法 ( 关联规则性质 | 非频繁项集超集性质 | 频繁项集子集性质 | 项集与超集支持度性质 )

6590 0

python数据挖掘 pycaret.arules 关联规则学习

1.关联算法应用介绍　　关联规则分析是数据挖掘中最活跃的研究方法之一，目的是在一个数据集中找出各项之间的关联关系，而这种关系并没有在数据中直接表示出来。常见于与购物篮分析。　　...参考链接：如何理解关联法则中的三个判断准则　　1.support(A)= number of A/total items，support(B)= number of B/total items，support...support是第一道过滤的准则，能够在繁杂众多的交易中过滤出值得我们关注的潜在规则。　　...confidence我们认为代表着“给定consequent的情况下，antecedent出现的概率”，也就是说是判断规则中两边存在的联系。...: list, default = None 规则挖掘中，需要被忽略的规则 # session_id: int, default = None 随机种子？

1.1K2 0

ChatRule—基于LLM挖掘KG中的逻辑规则

为了减少幻觉问题，我们设计了一个逻辑规则排序器，通过涵盖知识图谱中观察到的事实来评估生成规则的质量并过滤掉无意义的规则。质量评分进一步在逻辑推理阶段用于减少低质量规则的影响。...方法 ChatRule用于在LLM上挖掘知识图谱中的逻辑规则。...1）基于 LLM 的规则生成器传统的逻辑规则挖掘研究通常集中在使用结构信息，忽视了用于表达逻辑连接的关系语义的贡献。...基于大规模语料库训练的LLM展现出理解自然语言语义和进行常识知识复杂推理的能力。为了结合结构和语义信息，我们设计了一个预定义的prompt来利用 LLMs进行规则挖掘。...从结果中，我们可以观察到 ChatRule 在所有数据集上始终优于基准方法。具体来说，传统方法 AIME 只利用归纳逻辑编程中的结构信息，已经取得了相对较好的性能。

1641 0

【数据挖掘】数据挖掘总结 ( 模式挖掘 | Apriori 算法 | 支持度 | 置信度 | 关联规则 ) ★★

\rm X \geq Y ; 支持度 : \rm X \Rightarrow Y 的支持度是 \rm X , Y 两个项集在数据库 \rm D 中同时出现的概率 , 即 \rm Pr(...X \cup Y) 置信度 : \rm X \Rightarrow Y 的置信度度是 \rm X 出现的前提下 , \rm Y 项集在数据库 \rm D 中同时出现的概率 , 即 \rm...\rm C_k 执行数据集扫描函数 , 找到其中的频繁 \rm k 项集 \rm L_k , 参考博客 : 【数据挖掘】关联规则挖掘 Apriori 算法 ( Apriori 算法过程...; 置信度大于等于 \rm 80\% 就说明有关联规则 ; 基于频繁 2 项集 \rm L_2 的关联规则 : 置信度 E...频繁 3 项集 \rm L_3 的关联规则 : 置信度 E ⇒

7170 0

MADlib——基于SQL的数据挖掘解决方案（27）——关联规则之Apriori算法

数据仓库或数据挖掘从业者一定对“啤酒与尿布”的故事不会陌生。这就是一个使用关联规则的经典案例。...之后我们用一个示例说明如何使用MADlib的Apriori函数发现关联规则。一、关联规则简介关联规则挖掘的目标是发现数据项集之间的关联关系，是数据挖据中一个重要的课题。...1994年，又提出了著名的Apriori算法，至今仍然作为关联规则挖掘的经典算法被广泛讨论。 Apriori数据挖掘算法使用事务数据。...MADlib的关联规则函数假设数据存储在事务ID与项目两列中。...剪枝事先对候选集进行过滤，以减少访问外存的次数，而这种子集测试本身可以使用所有频繁项集的散列树快速完成。 2.

1.2K4 0

基于关联规则的每日音乐分享

这个看起来很复杂的功能，其实由一个简单易懂的算法就可以实现哟，它就是我们今天的C位——基于关联规则的Apriori算法。...1 关联规则简介关联规则（association rule），顾名思义就是找到事物之间的关联性，可用来寻找大量变量之间有趣的联系。关联规则学习是无监督的，不需要训练算法，也不需要提前标记数据。...基于数据集，就可以简单地运行程序。一个典型的规则可以表述为如下形式： {轻音乐，古典} {民谣} 这个规则表达的意思就是：如果爱听轻音乐和古典乐，那么很有可能会爱听民谣。...大括号内的事物组合表示它们构成一个集合，被称为项集。关联规则是根据项集的子集研究得到的。...2 Apriori算法简介 Apriori算法采用一个简单的先验准则来减少关联规则的搜索空间：一个频繁项集的所有子集一定是频繁的，一个不频繁的项集的所有父集一定是不频繁的。

8803 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云