啤酒和尿布的案例 原始的购物篮分析,属于数据挖掘范畴,但也是机器学习的必备算法。
高级的购物篮分析,是推荐系统常用到的算法之一
运营商人群分类案例 通过聚类分离不同人群,然后再分析人群的特点,制定不同的品牌,其属于机器学习范畴,对于给定的数据,运行给定的算法即可获得相关结果
原始的垃圾邮件过滤经常被用到
通过不同的参数指标来获得对事物的评判
类似于PageRank的目的,其对指定对象进行评分排名
机器学习:处理行为数据,搜索记录,浏览记录,评论记录等等 数据分析:处理交易数据,账单工单等等 数据量:海量/行为数据 VS 交易/少量数据
交易数据的一致性要求非常高,事务保证,确保数据一致性 行为数据一致性不高,数据缺失影响不大,对于整体分析结果影响较少 对于交易型数据的存储:关系型数据库 行为数据:MongoDB等NoSQL数据库
数据分析多采用采样分析 机器学习大多是全量分析,数据量越多,分析结果越贴合
过去的历史数据特点:数据分析 预测未来的用户特点:机器学习
分类 | 特点 |
---|---|
数据分析 | 汇总数据,OLAP,纬度少,属性少,数据量小,用户驱动,交互式分析 |
机器学习 | 明细全量数据,纬度多,属性多,数据量大,数据驱动,自动进行知识发现 |
数据分析取决于分析师的能力视角,目标用户是特定决策者 机器学习结果:取决于数据质量,数据驱动,算法影响较小,目标用户是数据用户本身
依据 | 类别 |
---|---|
按训练数据特点 | 有监督学习,无监督学习,半监督学习 |
按算法解决的问题 | 分类和回归,聚类,标注 |
按算法本质 | 生成模型,判别模型 |
对样本数据进行训练,得到一个模型,然后判断Y(输出)-X(输入)关系
类别 | 名称 | 特点 |
---|---|---|
分类 | C4.5 | 有监督算法,淘汰 |
聚类 | K-Means | 无监督算法 |
分类 | SVM | 基于统计,有数学理论支撑(效果好,有理论支撑)-被深度学取代-必考,公式推导 |
关联分析 | Apriori | 频繁项集挖掘,代价大,被FP-Growth取代,只需;两次扫描数据库,推荐不用这些算法了 |
抽象 | EM | 算法框架,K-Means本质即为EM算法 |
链接 | PageRank | |
分类框体 | AdaBoost | 人脸识别,有监督学习 |
分类 | kNN | 最简单,有监督学习,类似k-means |
分类 | NativeBayes | |
分类 | CART | 淘汰 |
其他杂类
名称 | 特点 |
---|---|
FP-Growth | 频繁项集挖掘 |
逻辑回归 | 搜索结果排序,本质逻辑回归 |
RF随机森林、GBDT | 类似AdaBoost,都是决策树算法改进 |
推荐算法 | — |
LDA | 文本分析,自然语言处理 难度大 |
Word2Vector | 文本挖掘 |
HMM马尔科夫模型、CRF条件随机场 | 文本挖掘 |
深度学习系列算法 | — |
机器学习解决的问题无非两类:预测、分类 预测:预测所属分类、预测预测数值,区别:预测目标Y是连续的还是离散的
确定问题:按颜色分类 收集数据:大量图片文件 特征工程:对于图片要根据图像内容,每个像素点由三数字组成;图片大小不一样,即数据维度不一样,如何将图片文件转换为聚类格式,转换为统一维度的向量 训练模型:K-Mean聚类 评价指标:暂略 注意:每次结果可能不一致