C4.5, k-Means, SVM, Apriori, EM, PageRank, AdaBoost, kNN, Naive Bayes, and CART
输入:聚类个数k,以及包含 n个数据对象的数据库。 输出:满足方差最小标准的k个聚类。 算法流程: 1. 从 n个数据对象任意选择 k 个对象作为初始聚类中心。 2. 若果不满足终止条件,到3,否则到6。 3. 根据每个聚类的中心对象,计算每个对象与这些中心对象的距离;并根据距离最小的中心重新对相应对象划分新的类,例如Pi离中心Si最近,则输入Si点群。 4. 重新计算每个(有变化)聚类的中心对象。 5. 若满足终止条件到6,否则循环(2)到(3)直到每个聚类满足终止条件。 6. 输出聚类结果。
算法很简单,其中主要的就是求中心点算法. 由于随机选择初始质心,所以可能两次聚类结果完全不同。
求点群中心点的算法你可以很简的使用各个点的各自维度的平均值。为什么这么取值可以见后面聚类算法评估标准的SSE函数求偏导。
n是其维度。λ可以随意取值,可以是负数,也可以是正数,或是无穷大。
也就是Minkowski Distance公式λ=2的情况
也就是Minkowski Distance公式λ=1的情况
聚类算法目标是使得同一个簇的差异很小,不同簇之间的数据差异最大化。
一般采用误差平方和作为衡量的目标函数SSE,上面提到的目标函数f就是SSE也是误差平方和
其中
表示聚类的中心点,x为数据点,D(c,x)为距离公式,一般λ为2.
其中n为其维度,
为c在第k维上的分量。
时对SSE求偏导,
解上面方程得:
从此推导我们可以明白为什么选择均值作为类簇的中心点,因为中心点为均值是,才能使得SSE最小。
CSDN博客:http://blog.csdn.net/shine19930820/article/details/64907266
机器学习算法按照学习方式分为监督学习、非监督学习、半监督学习、强化学习
监督学习:从给定的训练数据集中学习出一个函数,当新的数据到来时,可以根据这个函数预测结果。训练集中的目标是由人标注的。
非监督式学习:与监督学习相比,训练集没有人为标注的结果。常见的非监督式学习算法有聚类。
半监督式学习:输入数据部分被标识,部分没有被标识,介于监督式学习与非监督式学习之间。常见的半监督式学习算法有支持向量机。
强化学习:在这种学习模式下,输入数据作为对模型的反馈,不像监督模型那样,输入数据仅仅是作为一个检查模型对错的方式,在强化学习下,输入数据直接反馈到模型,模型必须对此立刻作出调整。常见的强化学习算法有时间差学习。
按照算法类似性分为决策树学习、回归、聚类、人工神经网络
决策树:根据数据的属性采用树状结构建立决策模型。决策树模型常常用来解决分类和回归问题。常见的算法包括 CART (Classification And Regression Tree)、ID3、C4.5、随机森林 (Random Forest) 等。
回归算法:试图采用对误差的衡量来探索变量之间的关系的一类算法。常见的回归算法包括最小二乘法 (Least Square)、逻辑回归 (Logistic Regression)、逐步式回归 (Stepwise Regression) 等。
聚类算法:通常按照中心点或者分层的方式对输入数据进行归并。所有的聚类算法都试图找到数据的内在结构,以便按照最大的共同点将数据进行归类。常见的聚类算法包括 K-Means 算法以及期望最大化算法 (Expectation Maximization) 等。
人工神经网络:模拟生物神经网络,是一类模式匹配算法。通常用于解决分类和回归问题。人工神经网络算法包括感知器神经网络 (Perceptron Neural Network) 、反向传递 (Back Propagation) 和深度学习等。
监督学习方法又分生成方法(Generativeapproach)和判别方法(Discriminative approach),所学到的模型分别称为生成模型(GenerativeModel)和判别模型(Discriminative Model)。
判别方法: 由数据直接学习决策函数Y=f(X)或者条件概率分布P(Y|X)作为预测的模型,即判别模型。基本思想是有限样本条件下建立判别函数,不考虑样本的产生模型,直接研究预测模型。典型的判别模型包括k近邻,感知机,决策树,支持向量机等。
生成方法: 由数据学习联合概率密度分布P(X,Y),然后求出条件概率分布P(Y|X)作为预测的模型,即生成模型:P(Y|X)= P(X,Y)/ P(X)。基本思想是首先建立样本的联合概率概率密度模型P(X,Y),然后再得到后验概率P(Y|X),再利用它进行分类。如朴素贝叶斯和隐马尔科夫模型等。
由生成模型可以得到判别模型,但由判别模型得不到生成模型。
《统计学习方法》 《The Elements of Statistical Learning 》 《Machine Learning A Probabilistic Perspective》 Top 10 algorithms in data mining