专栏首页编程python常用可视化技巧

python常用可视化技巧

向AI转型的程序员都关注了这个号

大数据挖掘DT数据分析 公众号: datadw

我们在对数据进行预处理时,常常需要对数据做一些可视化的工作,以便能更清晰的认识数据内部的规律。

这里我们以kaggle案例泰坦尼克问题的数据做一些常用的可视化的工作。首先看下这个数据集:

我们换一个连续性变量多的数据集,看看特征直接相关度。

下面我们看看高维数据如何做可视化分析,首先咱们造个高维数据集

数据的可视化有很多工具包可以用,比如下面我们用来做数据可视化的工具包Seaborn。最简单的可视化就是数据散列分布图和柱状图,这个可以用Seanborn的pairplot来完成。以下图中2种颜色表示2种不同的类,因为20维的可视化没有办法在平面表示,我们取出了一部分维度,两两组成pair看数据在这2个维度平面上的分布状况,代码和结果如下:

我们从散列图和柱状图上可以看出,确实有些维度的特征相对其他维度,有更好的区分度,比如第11维和14维看起来很有区分度。这两个维度上看,数据点是近似线性可分的。而12维和19维似乎呈现出了很高的负相关性。接下来我们用Seanborn中的corrplot来计算计算各维度特征之间(以及最后的类别)的相关性。代码和结果图如下:

相关性图很好地印证了我们之前的想法,可以看到第11维特征和第14维特征和类别有极强的相关性,同时它们俩之间也有极高的相关性。而第12维特征和第19维特征却呈现出极强的负相关性。强相关的特征其实包含了一些冗余的特征,而除掉上图中颜色较深的特征,其余特征包含的信息量就没有这么大了,它们和最后的类别相关度不高,甚至各自之间也没什么先惯性。

新增部分

绘制正态分布概率密度函数代码如下

我们可以绘制在三维空间的正态分布图代码如下

损失函数:Logistic损失(-1,1)/SVM Hinge损失/ 0/1损失

画散点图:

接着上面画出逻辑回归的分类效果图:

这里总结下plot函数里面的形状参数:’ro’:表示红色圆圈,’g^’:蓝色上三角,前一个字母表示颜色,后一个字符表示形状。可用的形状有’^’,’V’,’‘,’>’,’

把上面三个图分开来画,凸显每个特征与类别的关系

人工智能大数据与深度学习

本文来自企鹅号 - 大数据挖掘DT数据分析媒体

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 开启您的数据科学方向

    如果您对数据科学感兴趣,但不知道从何处开始,这边文章适合您。 ? 本文对数据科学众多方向进行简要描述,您不需要全部学习,只需要选择一个,从第一步开始执行,您将会...

    企鹅号小编
  • 你了解你的数据吗

    0x00 前言 你了解你的数据吗? 前几天突然来了点灵感,想梳理一下自己对数据的理解,因此便有了这篇博客或者说这系列博客来聊聊数据。 数据从业者有很多,比如说数...

    企鹅号小编
  • 行业研究:大数据(一)

    从今天开始,会不间断的写关于大数据的行业研究,由浅入深、由面到点、至上而下的写,最终目的就是帮助大家理清楚大数据接下来的投资脉络和投资方向。 今天主要是大体的介...

    企鹅号小编
  • 大数据商业智能的十大戒律

    如今,各路企业和组织都不再使用上一代架构来存储大数据。既然如此,为什么还要使用上一代商业智能(BI)工具来进行大数据分析呢?在为企业选择BI工具时,应该遵守以下...

    华章科技
  • 读书笔记|大数据时代

    写在前面的 大数据这个概念在最近这几年很火,大家也大概知道大数据到底是个什么东西,它是如何运作的。现在好多产品上面都会有“猜你喜欢”这一功能,这就是利用大数据实...

    张俊红
  • 游戏服务器学习之路--数据存储

    原文链接:http://www.cnblogs.com/xitang/archive/2011/06/06/2073447.html 在游戏中有很多的数据,有些...

    李海彬
  • 电商社交数据在大数据风控的应用实践

    大数据文摘
  • 神策数据创始人兼CEO桑文锋:大数据分析的四个重要环节(内附视频&PPT)

    数据猿导读 在“硅谷之声——大数据技术达人中国行专场”上,神策数据创始人兼CEO桑文锋表示,在百度工作这么多年,“要把数据的事情做好”是我非常重要的一个心得。数...

    数据猿
  • 大数据24小时 | ThinkingData获百万级天使轮融资 Qlik在华成立新公司布局“大数据”

    贵安新区与上海贝格合作,共建“大数据小镇” ? 日前,贵州贵安新区与上海贝格数据公司宣布达成战略合作,据悉,上海贝格是一家基于金融大数据的服务供应商,旗下产品包...

    数据猿
  • 傅盛:深度学习是一种新的思维方式

    过去猎豹在安全和工具层面,抓住了上一个时代的大风口。如今这条赛道不再像以前那样野蛮生长。

    华章科技

扫码关注云+社区

领取腾讯云代金券