Python数据分析-数据探索下

主题 数据探索

接着上一节的内容~

二、数据特征分析

5. 相关性分析

(1)直接描述散点图

从散点图可以比较直观地看书两个变量的相关性。(一般分为完全正线性相关、完全负线性相关、非线性相关、正线性相关、负线性相关、不相关)

(2)绘制散点图矩阵

可对多个变量同时进行相关关系的考察

(3)计算相关系数

这里的相关系数有很多,如Pearson相关系数、spearman相关系数、判定系数等等

三、python主要数据探索函数

python中用于数据探索的库主要是pandas和matplotlib,而pandas提供大量的函数,也作为重点来进行介绍

1. 基本统计特征函数(均属pandas)

(1)sum(),计算数据样本的总和(按列计算)

(2)mean(),计算算数平均数

(3)var(),计算方差

(4)std(),计算标准差

(5)corr(),计算Pearson相关系数

(6)cov(),计算协方差矩阵

(7)skew(),计算偏度

(8)kurt(),计算峰度

(9)describe(),给出样本的基本描述

2. 统计作图函数

(1)plot(),绘制线性二维图,matplotlib/pandas

使用格式:plt.plot(x,y,S)

字符串S指定绘制图形的类型、样式和颜色,常用的有:‘b’为蓝色、‘r’为红色、‘g’为绿色、‘o’为圆圈、‘+’为加号标记、‘-’为实线、‘--’为虚线

(2)pie(),绘制饼形图,matplotlib/pandas

(3)hist(),绘制二维条形直方图,matplotlib/pandas

(4)boxplot(),绘制样本数据的箱形图,pandas

(5)plot(logy=true),绘制y轴的对数图形,pandas

(6)plot(yerr=error),绘制误差条形图,pandas

—End—

本文来自企鹅号 - SAMshare媒体

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏贾志刚-OpenCV学堂

使用OpenCV与sklearn实现基于词袋模型(Bag of Word)的图像分类预测与搜索

基于OpenCV实现SIFT特征提取与BOW(Bag of Word)生成向量数据,然后使用sklearn的线性SVM分类器训练模型,实现图像分类预测。实现基于...

4083
来自专栏人工智能LeadAI

卷积神经网络看见了什么

这是众多卷积神经网络可视化方法之一,方法来自于论文《Learning Deep Features for Discriminative Localization...

1401
来自专栏AI科技评论

开发 | Keras版faster-rcnn算法详解(RPN计算)

AI科技评论按:本文首发于知乎专栏Learning Machine,作者张潇捷, AI科技评论获其授权转载。 前段时间学完Udacity的机器学习和深度学习的课...

62311
来自专栏企鹅号快讯

你看到的最直白清晰的CNN讲解

这篇博客介绍的是深度神经网络中常用在图像处理的模型——卷积神经网络(CNN),CNN在图像分类中(如kaggle的猫狗大战)大显身手。这篇博客将带你了解图像在计...

2108
来自专栏烂笔头

机器学习笔记—KNN算法

目录[-] 前言 分类(Classification)是数据挖掘领域中的一种重要技术,它从一组已分类的训练样本中发现分类模型,将这个分类模型应用到待分类的样...

52810
来自专栏机器学习算法与Python学习

CNN之卷积层

关键字全网搜索最新排名 【机器学习算法】:排名第一 【机器学习】:排名第二 【Python】:排名第三 【算法】:排名第四 前言 卷积神经网络在深度学习领域是一...

3497
来自专栏ATYUN订阅号

Python中的统计假设检验速查表

本文是一个机器学习项目中最流行的统计假设检验的速查表,包含使用Python接口的示例。

3996
来自专栏有趣的Python和你

机器学习实战之AdaBoost元算法

913
来自专栏机器学习算法原理与实践

K近邻法(KNN)原理小结

    K近邻法(k-nearest neighbors,KNN)是一种很基本的机器学习方法了,在我们平常的生活中也会不自主的应用。比如,我们判断一个人的人品,...

1205
来自专栏数据小魔方

机器学习笔记——特征标准化

数据标准化是为了消除不同指标量纲的影响,方便指标之间的可比性,量纲差异会影响某些模型中距离计算的结果。

1073

扫码关注云+社区