作者:雪山飞猪
博客地址:
https://www.cnblogs.com/chenqionghe/p/12301905.html
说明:本文经作者授权转载,禁止二次转载
连接分析:PageRank
关联分析:Apriori
分类算法:C4.5,朴素贝叶斯,SVM,KNN,Adaboost,CART
聚类算法:K-Means,EM
当一篇论文被引用的次数越多,证明这篇论文的影响力越大。
一个网页的入链越多,入链越优质,网页的质量越高。
关于阻尼因子
关联关系挖掘,从消费者交易记录中发掘商品与商品之间的关联关系。
某个商品组合出现的次数与总次数之间的比例。
5次购买,4次买了牛奶,牛奶的支持度为4/5=0.8;
5次购买,3次买了牛奶+面包,牛奶+面包的支持度为3/5=0.6。
购买了商品A,有多大概率购买商品B,A发生的情况下B发生的概率是多少?
买了4次牛奶,其中2次买了啤酒,(牛奶->啤酒)的置信度为2/4=0.5;
买了3次啤酒,其中2次买了牛奶,(啤酒->牛奶)的置信度为2/3=0.67。
衡量商品A的出现,对商品B的出现 概率提升的程度
提升度>1,有提升;
提升度=1,无变化;
提升度<1,下降
项集:可以是单个商品,也可以是商品组合;
频繁项集是支持度大于最小支持度(Min Support)的项集。
计算过程
扩展:FP-Growth 算法
Apriori 算法需要多次扫描数据库,性能低下,不适合大数据量。
FP-growth算法,通过构建 FP 树的数据结构,将数据存储在 FP 树中,只需要在构建 FP 树时扫描数据库两次,后续处理就不需要再访问数据库了。
啤酒和尿不湿摆在一起销售
沃尔玛通过数据分析发现,美国有婴儿的家庭中,一般是母亲在家照顾孩子,父亲去超市买尿不湿。
父亲在购买尿不湿时,常常会顺便搭配几瓶啤酒来犒劳自己。
于是,超市尝试推出了将啤酒和尿不湿摆在一起的促销手段。
这个举措居然使尿不湿和啤酒的销量都大幅增加。
简单的说,多个弱分类器训练成为一个强分类器,将一系列的弱分类器以不同的权重比组合作为最终分类选择。
计算过程
决策就是对于一个问题,有多个答案,选择答案的过程就是决策。
C4.5算法是用于产生决策树的算法,主要用于分类。
C4.5使用信息增益率做计算(ID3算法使用信息增益做计算)。
C4.5选择最有效地方式对样本集进行分裂,分裂规则是分析所有属性的信息增益率。
信息增益率越大,意味着这个特征分类的能力越强,我们就要优先选择这个特征做分类。
挑西瓜
拿到一个西瓜,先判断它的纹路,如果很模糊,就认为这不是好瓜;
如果它清晰,就认为它是一个好瓜;
如果它稍稍模糊,就考虑它的密度,密度大于某个值,就认为它是好瓜,否则就是坏瓜。
CART:Classification And Regression Tree,中文叫分类回归树,即可以做分类也可以做回归。
什么是分类树、回归树?
分类树:处理离散数据,也就是数据种类有限的数据,输出的是样本的类别 。
回归树:可以对连续型的数值进行预测,输出的是一个数值,数值在某个区间内都有取值的可能。
回归问题和分类问题的本质一样,都是针对一个输入做出一个输出预测,其区别在于输出变量的类型。
朴素贝叶斯是一种简单有效的常用分类算法,计算未知物体出现的条件下各个类别出现的概率,取概率最大的分类
假设输入的不同特征之间是独立的,基于概率论原理,通过先验概率P(A)、P(B)和条件概率推算出后概率出P(A|B)。
P(A):先验概率,即在B事件发生之前,对A事件概率的一个判断。
P(B|A):条件概率,事件 B 在另外一个事件 A 已经发生条件下的发生概率。
P(A|B):后验概率,即在B事件发生之后,对A事件概率的重新评估。
给病人分类
症状 | 职业 | 疾病 |
---|---|---|
打喷嚏 | 护士 | 感冒 |
打喷嚏 | 农夫 | 过敏 |
头痛 | 建筑工人 | 脑震荡 |
头痛 | 建筑工人 | 感冒 |
打喷嚏 | 教师 | 感冒 |
头痛 | 教师 | 脑震荡 |
给定一个新病人,是一个打喷嚏的建筑工人,计算他患感冒的概率。
SVM:Support Vector Machine,中文名为支持向量机,是常见的一种分类方法,最初是为二分类问题设计的。
在机器学习中,SVM 是有监督的学习模型。
什么是有监督学习和无监督学习?
有监督学习:即在已有类别标签的情况下,将样本数据进行分类。
无监督学习:即在无类别标签的情况下,样本数据根据一定的方法进行分类,即聚类。
分类好的类别需要进一步分析后,从而得知每个类别的特点。
找到具有最小间隔的样本点,然后拟合出一个到这些样本点距离和最大的线段/平面。
硬间隔:数据是线性分布的情况,直接给出分类。
软间隔:允许一定量的样本分类错误。
核函数:非线性分布的数据映射为线性分布的数据。
1.分隔桌上一堆红球和篮球
用一根线将桌上的红球和蓝球分成两部分;
2.分隔箱子里一堆红球和篮球
用一个平面将箱子里的红球和蓝球分成两部分。
机器学习算法中最基础、最简单的算法之一,既能分类也能回归,通过测量不同特征值之间的距离来进行分类。
计算待分类物体与其他物体之间的距离,对于K个最近的邻居,所占数量最多的类别,预测为该分类对象的类别
计算步骤
近朱者赤,近墨者黑
K-means是一个聚类算法,是无监督学习,生成指定K个类,把每个对象分配给距离最近的聚类中心。
1.随机选取K个点为分类中心点;
2.将每个点分配到最近的类,这样形成了K个类;
3.重新计算每个类的中心点。比如都属于同一个类别里面有10个点,那么新的中心点就是这10个点的中心点,一种简单的方式就是取平均值。
1.选老大
大家随机选K个老大,谁离得近,就是那个队列的人(计算距离,距离近的人聚合在一起)。
随着时间的推移,老大的位置在变化(根据算法,重新计算中心点),直到选出真正的中心老大(重复,直到准确率最高)
2.Kmeans和Knn的区别
Kmeans开班选老大,风水轮流转,直到选出最佳中心老大;
Knn小弟加队伍,离那个班相对近,就是那个班的。
EM 的英文是 Expectation Maximization,所以 EM 算法也叫最大期望算法,也是聚类算法的一种。
EM和K-Means的区别:
先估计一个大概率的可能参数,然后再根据数据不断地进行调整,直到找到最终的确认参数。
菜称重
很少有人用称对菜进行称重,再计算一半的分量进行平分。
大部分人的方法是:
到这里,10大算法都已经说完了,其实一般来说,常用算法都已经被封装到库中了,只要导入相应的模型即可。
-END-