python常用可视化技巧

文章来源：企鹅号 - 大数据挖掘DT数据分析

向AI转型的程序员都关注了这个号

大数据挖掘DT数据分析公众号： datadw

我们在对数据进行预处理时，常常需要对数据做一些可视化的工作，以便能更清晰的认识数据内部的规律。

这里我们以kaggle案例泰坦尼克问题的数据做一些常用的可视化的工作。首先看下这个数据集：

我们换一个连续性变量多的数据集，看看特征直接相关度。

下面我们看看高维数据如何做可视化分析，首先咱们造个高维数据集

数据的可视化有很多工具包可以用，比如下面我们用来做数据可视化的工具包Seaborn。最简单的可视化就是数据散列分布图和柱状图，这个可以用Seanborn的pairplot来完成。以下图中2种颜色表示2种不同的类，因为20维的可视化没有办法在平面表示，我们取出了一部分维度，两两组成pair看数据在这2个维度平面上的分布状况，代码和结果如下：

我们从散列图和柱状图上可以看出，确实有些维度的特征相对其他维度，有更好的区分度，比如第11维和14维看起来很有区分度。这两个维度上看，数据点是近似线性可分的。而12维和19维似乎呈现出了很高的负相关性。接下来我们用Seanborn中的corrplot来计算计算各维度特征之间(以及最后的类别)的相关性。代码和结果图如下：

相关性图很好地印证了我们之前的想法，可以看到第11维特征和第14维特征和类别有极强的相关性，同时它们俩之间也有极高的相关性。而第12维特征和第19维特征却呈现出极强的负相关性。强相关的特征其实包含了一些冗余的特征，而除掉上图中颜色较深的特征，其余特征包含的信息量就没有这么大了，它们和最后的类别相关度不高，甚至各自之间也没什么先惯性。

新增部分

绘制正态分布概率密度函数代码如下

我们可以绘制在三维空间的正态分布图代码如下

损失函数：Logistic损失(-1,1)/SVM Hinge损失/ 0/1损失

画散点图：

接着上面画出逻辑回归的分类效果图：

这里总结下plot函数里面的形状参数：’ro’：表示红色圆圈，’g^’：蓝色上三角，前一个字母表示颜色，后一个字符表示形状。可用的形状有’^’，’V’，’‘，’>’，’

把上面三个图分开来画，凸显每个特征与类别的关系

人工智能大数据与深度学习

发表于: 2017-12-252017-12-25 21:25:19
原文链接：http://kuaibao.qq.com/s/20171225B0WSZD00?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

python常用可视化技巧

相关快讯

扫码

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐