产品经理做数据分析（3）Python算法可视化【上】

文章来源：企鹅号 - PMLink

对于数据产品经理而言，Python算法可用于用户行为预测、千人千面推荐、数据统计分析等。

这次分享主要了解K-Means算法、PLA算法、Scikit-Learn算法的基本原理、处理流程和案例拆解。

1.K-Means算法

K-Means算法是根据给定的 n 个数据对象的数据集，构建k个点为中心进行聚类，同一聚类中的对象相似度较高，而不同聚类中的对象相似度较小。

通过迭代的方法，逐次更新各聚类中心的值，直至得到最好的聚类结果。

K-Means算法主要分为以下几个步骤：

第1步：是随机选取k个点，作为聚类中心；

第2步：是计算每个点到k个聚类中心的距离，将每个点聚类到离该点最近的聚类中去，从而形成了k个簇；

第3步：计算每个簇中所有点的坐标平均值（质心），并将这个平均值作为新的聚类中心；

第4步：反复执行(2)、(3)，直到聚类中心不再进行大范围移动或者聚类达到设定的迭代次数。

以K-Means算法可视化为例，其关键代码如下：

2.PLA算法

PLA算法是一个二元分类的感知机算法，对于二维或高维的线性可分问题的分类，最终将问题分为两类——是或者不是。

PLA算法主要分为以下几个步骤：

第1步：随机选择一条直线进行分类；

第2步：找到第一个分类错误的点，对于犯错误的点变换直线的位置正；

第3步：更新直线让它离我们理想的直线越来越近。

以PLA算法算法可视化为例，其关键代码如下：

3.Scikit-Learn算法

Scikit-Learn算法是一个用于 Python 编程语言的免费软件机器学习库。

它包含了分类、非监督分类、回归、聚类、数据降维、模型选择和预处理等机器学习的方式，使用Scikit-Learn可以很方便地实现一个机器学习算法。

以Scikit-Learn算法可视化为例，其关键代码如下：

Python可以解决很多数据分析的问题，通过算法能够让数据分析更加精准，并从中找到一些用户规律，以便我们采取下一步运营策略。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货