前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >数据挖掘与建模

数据挖掘与建模

作者头像
凹谷
发布2020-04-11 10:36:58
7940
发布2020-04-11 10:36:58
举报
文章被收录于专栏:大数据与微服务架构

纸上得来终觉浅,绝知此事要躬行。

数据挖掘是基于统计学原理,利用机器学习中的算法工具实现价值信息的发现。机器学习是一种实现人工智能的方法,深度学习是实现机器学习的一种技术。

四大经典算法:分类、关联、聚类、回归

一、监督学习(通俗来说就是已知样本类别,即知道当前的样本是哪一类的样本。)

1、分类分析:找出一组对象的共同特点并按照分类模式将他们分为不同类,分为线性分类和非线性分类。

线性分类典型的算法包括逻辑回归和线性判别分析。

非线性分类经典算法包括K近邻(KNN)、支持向量机(SVM)、决策树(D Tree)、朴素贝叶斯(NB)

2、回归分析:反映事务数据属性在时间上的特征,预测数据间的相关关系,与分类区别在于,分类是预测目标的离散变量,而回归是预测目标的连续变量。

典型的回归分析模型包括线性回归分析、支持向量机(回归)、K近邻(回归)。

二、无监督学习(事先没有任何训练数据样本,需要直接对数据进行建模,即不提供经验和训练样本,完全靠自己摸索)

1、关联分析:描述数据库中数据之间存在关系的规则。

关联规则挖掘中有4个指标:置信度、支持度、期望置信度、提升度。

典型算法:Apriori算法、FP-Tree算法、PrefixSpan算法。

2、聚类分析:训练样本标签信息未知,通过学习揭示数据内在性质及规律。

典型算法:K均值算法(K-means)、DBSCAN(具有噪声的基于密度的聚类方法)。

三、沃尔玛经典营销案例:啤酒与尿布

模型发现:20世纪90年代的美国沃尔玛超市中,管理人员分析销售数据时发现了一个令人难于理解的现象:在某些特定的情况下,“啤酒”与“尿布”两件看上去毫无关系的商品会经常出现在同一个购物篮中。

原因分析:在美国有婴儿的家庭中,一般是母亲在家中照看婴儿,年轻的父亲前去超市购买尿布。父亲在购买尿布的同时,往往会顺便为自己购买啤酒,这样就会出现啤酒与尿布这两件看上去不相干的商品经常会出现在同一个购物篮的现象。

模型应用:在卖场尝试将啤酒与尿布摆放在相同的区域,让年轻的父亲可以同时找到这两件商品,并很快地完成购物;而沃尔玛超市也可以让这些客户一次购买两件商品、而不是一件,从而获得了很好的商品销售收入。

理论支撑:1993年美国学者Agrawal提出通过分析购物篮中的商品集合,从而找出商品之间关联关系的关联算法,并根据商品之间的关系,找出客户的购买行为。艾格拉沃从数学及计算机算法角度提 出了商品关联关系的计算方法——Apriori算法。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2019-11-26,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 大数据与微服务架构 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档