K-Means算法是一种聚类算法,把n个对象根据他们的属性分成k个分类,并且使这K个分割的内部相似度最大,而分割之间的相似度最小。 其主要的算法流程如下: 1. 从n个对象中任意选K个对象,作为每个聚类的中心 2. 根据K个中心,按照每个对象离K个中心的最小距离(离那个中心近,就划分到哪个中心),将n个对象划分成K个分割(聚类) 3. 然后计a ge su a分割的中心(分割中的所有对象的均值),将这些中心作为聚类新的中心。 4. 计算标准测度函数,当计算函数满足一定的条件,如收敛了,则程序结束,否则返回第2步。
它是一种基于样本间相似度的聚类算法,是一种非监督算法。是一种较典型的逐点修改迭代的动态聚类算法。
这个适用,基本也在优缺点里面讲述了。
朴素贝叶斯算法是基于一个简单假设:在给定的目标值时,各个属性是相互独立的。贝叶斯是依据贝叶斯定理来的。计算极大后验概率。其具体原理如下:
Vmap=argmaxP(hi|a0,a1,...,an)=argmaxP(a0,a1,...,an|hi)∗P(hi)P(a0,a1,...,an)=argmaxP(a0,a1,...an|hi)∗P(hi)=argmax(∏j=0nP(aj|hi))∗P(hi)
其中 h 是目标类别。 a 是属性 原理就是上面这个式子,基于给定目标值时,各个属性相互独立,通过将后验概率转换成先验概率。其中 P(hi) 与 P(aj|hi) 可有训练数据的频率估算出。
适用于属性之间独立性较强的问题
PageRank是来源与google搜索最初的算法模型。PageRank的核心思想是通过一些方法计算当前网络的积分,通过积分来给每个网页排序。每个网络的PageRank值总是递归地由其他网页的PageRank值决定的。
它由两个假设: – 数量:每个网页接受其他网页页面指向的入页数量越多,该网页的pageRank值越高 – 质量:质量高的网页通过链接向其他网页传递更多的权重。
它通过马尔科夫链来计算PageRank值,有个公式如下:
Pi=∑P(j)O(j)
其中 i,j∈E , O(j) 表示节点j出页的数量.
另外它也需要解决下面三个问题: 1. 只有入边没有出边的节点 2. 不是非周期性 3. 不是不可约的
KNN即最近邻分类器,它是通过与样本数据中进行比较,离哪个样本类近就是哪个。 KNN算法步骤如下: 1. 计算,计算节点K个最近的邻居。通过计算得出 2. 分类,根据K个邻居的主要类别来对测试对象进行分类
KNN使用查找K邻居的算法是KD树
Apriori算法是一种数据挖掘算法。Apriori算法是一种最有影响力的挖掘布尔关系频繁项集的算法。其核心是基于两阶段频繁项集思想的递推算法。这里的频繁项集是指支持度大于最小支持度的项集。其算法步骤如下: 1. 根据支持度找出所有频繁项集(频度) 2. 根据置信度找出强关联规则(强度)
Apriori(先验的,推测的)算法应用广泛,可用于消费市场价格分析,猜测顾客的消费习惯;网络安全领域中的入侵检测技术;可用在用于高校管理中,根据挖掘规则可以有效地辅助学校管理部门有针对性的开展贫困助学工作;也可用在移动通信领域中,指导运营商的业务运营和辅助业务提供商的决策制定。
Adaboost是一种集成学习算法。boosting跟bagging都是集成学习的一种。Adaboost其实也是将多个若分类器,按照权重的方式组合起来,构成一个强分类器。Adaboost将不同的训练集,训练同一个模型,得到若干个若分类器,然后再将这些若分类器组合起来,构成一个强分类器。理论上证明,如果这些若分类器的效果比随机性要好,那么当若分类器的数量趋向于无穷个时,强分类器的错误率将趋于0。
其抽象算法描述如下:
C4.5是改进于ID3算法的,所以也是一种分类决策树算法。主要的算法流程是 1. 建立一个节点N 2. 通过一些判断,选择样本集中,能最优地分开样本的属性(信息增益比),按照每个属性值对树进行分支。每个分支是一种属性值。 3. 对每个属性值按照类似的方式进行分支,直到某个分支都是同一种类别,或者其他类别的数量少于阀值。将这个分支集合中数量最多的类别作为这个分支的分类。这个节点不再往下扩展。 4. 在简历树的过程中和建立树结束后,可以对树进行剪纸
上面是决策树算法的通用算法。
主要是在数据挖掘上面进行一些适用。不是很适合直接在很大数据上面的适用。擅长处理非数值性问题
分类与回归树算法,其实是一个二叉分类树。算法本身跟决策树是差不多的,但是算法在每个节点分叉的时候,只有两个分支。它使用的进行属性选择的方式是用GINI指数。
目前有人使用分类与回归树进行信誉评估,以及故障检测方面。节点属性类别太多,可能不是很适合。
极大似然估计算法:对于已经出现的现象,假定这个现象或事件出现的概率是最大的。依据于此,来通过迭代地计算概率期望,最大化概率。也就是迭代地进行E步和M步。直到算法收敛。
Exception:根据参数{ θi } 得到每个观察数据的期望 Maximization: 根据期望,重新计算参数,使得似然函数最大。
支持向量机分类器,其主要思想是通过在样本数据中,找到一些支持向量,让这些支持向量构造一个超平面,这个超平面到两个类别的支持向量间的距离最小。用这个超平面来划分处于超平面两边的类别。其中,它可以通过构造高维空间来对非线性数据进行分类。它主要下面几种核函数:
耐心勿急,事了拂衣去,深藏身与名
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。
发布者:全栈程序员栈长,转载请注明出处:https://javaforall.cn/234687.html原文链接:https://javaforall.cn