前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >使用Dataprep进行自动化的探索性数据分析

使用Dataprep进行自动化的探索性数据分析

作者头像
deephub
发布2021-08-20 10:23:06
5620
发布2021-08-20 10:23:06
举报
文章被收录于专栏:DeepHub IMBADeepHub IMBA

数据分析帮助我们识别数据集中的模式,分析不同变量之间的相关性和关联。借助不同的可视化,我们可以确定数据是否试图讲述任何特定的故事。有不同类型的图表和绘图可用于分析和可视化数据。

创建不同类型的图和图表会消耗大量时间,因为我们需要根据列的数据类型确定有用的图形类型,并且我们还需要编写大量代码来创建这些图形。但是,如果我告诉您可以在一行代码中完成所有这些操作呢?

Dataprep 是一个开源 Python 库,有助于自动化探索性数据分析过程。它在创建数据分析报告时很有用,它还具有 3 个用于绘制图形、绘制缺失数字和数据相关性的功能。

在本文中,我们将探讨 Dataprep 提供的一些功能。

让我们开始吧…

安装所需的库

我们将首先使用 pip 安装 Dataprep 库。下面给出的命令将执行此操作。

代码语言:javascript
复制
 pip install -U dataprep

导入所需的库

在这一步中,我们将导入加载数据集和执行 EDA 操作所需的库。

代码语言:javascript
复制
 from dataprep.datasets import load_dataset
 from dataprep.eda import create_report
 from dataprep.eda import plot, plot_correlation, plot_missing

加载数据集

对于本文,我们将使用Dataprep中预定义的著名的收入数据集。

代码语言:javascript
复制
 df = load_dataset("adult")

创建EDA报告

现在我们将创建一个EDA报告,其中包含所有的可视化,相关性,缺失的图表等,这有助于分析数据集。

代码语言:javascript
复制
 create_report(df).show_browser()

这是报告的首页,在这里你可以看到我们正在使用的数据的概述。同样,让我们看看如何创造不同的章节。

创建图表

在这个步骤中,我们将创建由Dataprep提供的不同的图。

1、Plot

该图表创建了所有数据变量的可视化。

代码语言:javascript
复制
 plot(df)

2、plot_correlation

这张图创建了不同类型的相关图,显示了不同数据变量之间的相关性。

代码语言:javascript
复制
 plot_correlation(df)

3、plot_missing

这是帮助创建显示缺失数据的表格和图表的最后一个图。

代码语言:javascript
复制
 plot_missing(df)

在这里,我们探索了由Dataprep创建的报告,它对EDA非常有帮助,还创建了不同的图来理解数据和分析它的属性。

我们可以将这几个方法使用在不同的数据集上创建EDA报告和图来执行数据分析。

作者:Himanshu Sharma

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-08-09,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DeepHub IMBA 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档