绿色代表新的开始和成长,也意味着更新和丰富。
数据可视化在数据挖掘中起着非常重要的作用。各种数据科学家花费了他们的时间通过可视化来探索数据。为了加快这一进程,我们需要有合适的工具。
没有规划的情况下,资源也无法转化为有价值的商品。因此,我希望本文能够为您提供关于所有可视化方法的架构。
Seaborn是一个基于matplotlib的Python数据可视化库。它提供了一个高级界面,以绘制曲线和信息统计图形。
您可以在命令行中运行以下任何一个命令来安装Seaborn。
pip install seaborn
conda install seaborn
运行以下命令可以导入seaborn。
import seaborn as sns
图中使用的数据集为著名的泰坦尼克数据集(图1),下面将数据集用变量df表示。
图1:泰坦尼克数据集
我们可以使用这些图来理解数据的平均值、中位数、范围、方差、偏差等。
import seaborn as sns
sns.distplot(x = df['age'], bins = 10)
图2:乘客“年龄”分布图。
import seaborn as sns
# For Plot 1
sns.jointplot(x = df['age'], y = df['Fare'], kind = 'scatter')# For Plot 2
sns.jointplot(x = df['age'], y = df['Fare'], kind = 'hex')
图3:“年龄”和“票价”的联合图
import seaborn as sns
sns.pairplot(df)
图4:泰坦尼克号数据集配对图
import seaborn as sns
sns.rugplot(x = df['Age'])
图5:乘客“年龄”的Rug图
这些图帮助我们理解分类变量。我们可以用它们进行单变量和双变量分析。
import seaborn as sns
sns.barplot(x = df['Sex'], y = df['Fare'])
图6:“车费”和“性别”的条形图
import seaborn as sns
sns.countplot(df['Pclass'])
图7:是否幸存和' P-class '的计数图。
import seaborn as sns
#For plot 1
sns.countplot(df['Pclass'])#For plot 2
sns.boxplot(y = df['Age'], x = df['Sex'])
图8:a)“年龄”的箱形图,b)“年龄”和“性别”不同类别的箱形图
它类似于箱型图,但它也提供了关于数据分布的补充信息。
import seaborn as sns
sns.violinplot(y = df['Age'], x = df['Sex'])
图9:“年龄”和“性别”之间的violin图
import seaborn as sns
sns.stripplot(y = df['Age'], x = df['Pclass'])
图10:“年龄”与“p-class”之间的条形图
import seaborn as sns
sns.swarmplot(y = train['Age'], x = train['Pclass'])
图11:‘年龄’与‘P-class’之间的swarm图
这些是使用二维矩阵数据进行可视化的特殊类型的图形。由于矩阵数据的维数较大,很难对其进行分析和可视化。因此,通过为矩阵数据提供颜色编码,使这个更容易。
df.corr()
图12:关联矩阵
sns.heatmap(df.corr(), annot = True, cmap = 'viridis')
图13:泰坦尼克号数据集的关联矩阵热图。
sns.heatmap(df.isnull(),yticklabels=False,cbar=False,cmap='viridis')
图14:泰坦尼克号数据中缺失值的热图。
sns.clustermap(tran.corr(), annot='True',cmap='viridis')
图15:泰坦尼克号数据关联矩阵的聚类图
网格图为我们提供了对可视化的更多控制,并通过一行代码绘制各种各样的图形。
sns.FacetGrid(train, col = 'Pclass', row = 'Sex').map(sns.distplot, 'Age')
图16:“性别”和“p-class”的“年龄”分布图
这是一个更高级的统计图,它提供了散点图以及对数据的线性拟合。
sns.lmplot(x = 'Age', y = 'PassengerId', data = df, hue = 'Sex)
图17:男女乘客年龄与身份证的回归图。
图17为男女乘客身份证与年龄的线性回归拟合。
在本文中,我们看到了14种使用seaborn的可视化技术。
我相信数据可视化增强了我们对数据解释的理解和潜力。它给我们提供了更令人满意的技能来表示数据,输入缺失值,识别异常值,检测异常,以及更多。
数据分析师就像警察一样,需要询问数据并通过它们得到信息。使用合适的工具来完成这项工作是非常必要的。因此,我希望这篇文章能够成为您查询数据的工具。
作者:Aayush Ostwal
deephub翻译组:孟翔杰
本文分享自 DeepHub IMBA 微信公众号,前往查看
如有侵权,请联系 cloudcommunity@tencent.com 删除。
本文参与 腾讯云自媒体同步曝光计划 ,欢迎热爱写作的你一起参与!