python:一句话说机器学习算法和调参-聚类篇

实验背景

大家好,『WedO实验君』又来了。来来来,继续上一个实验的主题。本实验整理的主题为聚类算法篇。

这里补充下聚类的概念。

俗话说的:“物以类聚,人以群分”。聚类是一个把数据对象划分成子集的过程,每个子集是一个簇(cluster),使得簇中的对象彼此相似,但与其他簇中的对象不相似。聚类成为自动分类,聚类可以自动的发现这些分组,这是突出的优点。

聚类无需样本标注,无监督聚类,主要用来研究数据自身的特点。

顺便把上一次实验的分类的概念一起补充下。

Classification (分类),对于一个 classifier ,通常需要你告诉它“这个东西被分为某某类”这样一些例子,理想情况下,一个 classifier 会从它得到的训练集中进行“学习”,从而具备对未知数据进行分类的能力,这种提供训练数据的过程通常叫做 supervised learning (监督学习)。

,要求必须事先明确知道各个类别的信息,并且断言所有待分类项都有一个类别与之对应。

经典聚类主要包括

Kmeans聚类

混合高斯模型

DBSCAN密度聚类算法

实验器材

● python

● sklearn

● pandas

实验内容

1. 实验数据说明

为了说明算法,采用著名的iris数据集合为实验数据。

fromsklearnimportcluster, datasets

importpandasaspd

importnumpyasnpfromsklearn

importpreprocessing

iris=datasets.load_iris()

X_iris=iris.data

y_iris=iris.target

iris.target_names

Out[9]:

array(['setosa', 'versicolor', 'virginica'],

dtype='|S10')

In [10]:

data=pd.DataFrame(iris.data, columns=iris.feature_names)

Out[10]:

2.各个单分类器说明

实验结语

本实验介绍了各个聚类的基本思想以及重要参数,已经python 的sklearn 算法在iris数据的实际应用。

实验预告:一句话说机器学习算法和调参-集成方法篇

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180307G1O49Y00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券