python常用可视化技巧

向AI转型的程序员都关注了这个号

大数据挖掘DT数据分析 公众号: datadw

我们在对数据进行预处理时,常常需要对数据做一些可视化的工作,以便能更清晰的认识数据内部的规律。

这里我们以kaggle案例泰坦尼克问题的数据做一些常用的可视化的工作。首先看下这个数据集:

我们换一个连续性变量多的数据集,看看特征直接相关度。

下面我们看看高维数据如何做可视化分析,首先咱们造个高维数据集

数据的可视化有很多工具包可以用,比如下面我们用来做数据可视化的工具包Seaborn。最简单的可视化就是数据散列分布图和柱状图,这个可以用Seanborn的pairplot来完成。以下图中2种颜色表示2种不同的类,因为20维的可视化没有办法在平面表示,我们取出了一部分维度,两两组成pair看数据在这2个维度平面上的分布状况,代码和结果如下:

我们从散列图和柱状图上可以看出,确实有些维度的特征相对其他维度,有更好的区分度,比如第11维和14维看起来很有区分度。这两个维度上看,数据点是近似线性可分的。而12维和19维似乎呈现出了很高的负相关性。接下来我们用Seanborn中的corrplot来计算计算各维度特征之间(以及最后的类别)的相关性。代码和结果图如下:

相关性图很好地印证了我们之前的想法,可以看到第11维特征和第14维特征和类别有极强的相关性,同时它们俩之间也有极高的相关性。而第12维特征和第19维特征却呈现出极强的负相关性。强相关的特征其实包含了一些冗余的特征,而除掉上图中颜色较深的特征,其余特征包含的信息量就没有这么大了,它们和最后的类别相关度不高,甚至各自之间也没什么先惯性。

新增部分

绘制正态分布概率密度函数代码如下

我们可以绘制在三维空间的正态分布图代码如下

损失函数:Logistic损失(-1,1)/SVM Hinge损失/ 0/1损失

画散点图:

接着上面画出逻辑回归的分类效果图:

这里总结下plot函数里面的形状参数:’ro’:表示红色圆圈,’g^’:蓝色上三角,前一个字母表示颜色,后一个字符表示形状。可用的形状有’^’,’V’,’‘,’>’,’

把上面三个图分开来画,凸显每个特征与类别的关系

人工智能大数据与深度学习

本文来自企鹅号 - 大数据挖掘DT数据分析媒体

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏自学笔记

机器学习可行性与VC dimension

在银行评估贷款申请人的授信请求前,会进行风险评估。符合申请则通过,反之驳回。长时间的数据和申请使得银行从中找到了一些规律并开始learning,所以风险评估就是...

32340
来自专栏企鹅号快讯

腾讯提出自适应图卷积神经网络,接受不同图结构和规模的数据

选自arXiv 作者:Ruoyu Li等 机器之心编译 参与:路雪 近日,AAAI 2018 发布接收论文列表,腾讯 AI Lab 共入选 11 篇。在论文《A...

42860
来自专栏AI科技大本营的专栏

一文了解迁移学习经典算法

迁移学习(Transfer Learning)目标是将从一个环境中学到的知识用来帮助新环境中的学习任务。

16220
来自专栏人工智能

自然语言处理的神经网络模型初探

深度学习(Deep Learning)技术对自然语言处理(NLP,Natural Language Processing)领域有着巨大的影响。

1.2K110
来自专栏目标检测和深度学习

教程 | 可视化CapsNet,详解Hinton等人提出的胶囊概念与原理

选自freecodecamp 作者:Nick Bourdakos 机器之心编译 参与:Pedro、思源 CapsNet 将神经元的标量输出转换为向量输出提高了表...

36470
来自专栏人工智能LeadAI

判别模型和生成模型

原文链接:https://www.jianshu.com/p/e57aabf32c18

16040
来自专栏机器之心

94页论文综述卷积神经网络:从基础技术到研究前景

选自arXiv 机器之心编译 参与:Panda 卷积神经网络(CNN)在计算机视觉领域已经取得了前所未有的巨大成功,但我们目前对其效果显著的原因还没有全面的理解...

34970
来自专栏机器之心

10 大深度学习架构:计算机视觉优秀从业者必备(附代码实现)

选自Analytics Vidhya 作者:FAIZAN SHAIKH 机器之心编译 参与:路雪、李亚洲、黄小天 近日,Faizan Shaikh 在 Ana...

27680
来自专栏机器之心

就喜欢看综述论文:情感分析中的深度学习

67490
来自专栏专知

【干货】基于注意力机制的神经匹配模型用于短文本检索

【导读】在基于检索的问答系统中,很重要的一步是将检索到的答案进行排序得到最佳的答案。在检索到的答案比较短时,对答案进行排序也成为了一个难题。使用深度学习的方法,...

85580

扫码关注云+社区

领取腾讯云代金券