前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >klib,一个加速数据清洗的神器!

klib,一个加速数据清洗的神器!

作者头像
数据STUDIO
发布2024-01-23 15:48:41
1150
发布2024-01-23 15:48:41
举报
文章被收录于专栏:数据STUDIO
klib提供了一系列非常易于应用的函数,具有合理的默认值,几乎可以用在任何DataFrame上,用于评估数据质量、获得灵感、执行数据清洗和可视化,从而更轻便、更高效的处理Python Pandas DataFrame数据。

klib可视化数据

代码语言:javascript
复制
-klib.cat_plot(df)  # 展示分类特征数量和频率
-klib.corr_mat(df)  # 相关性矩阵
-klib.corr_plot(df)  # 热力图,适用于展示相关性
-klib.corr_interactive_plot(df, split="neg").show()  # 交互式相关性图表
-klib.dist_plot(df)  # 每个数值特征的分布
-klib.missingval_plot(df)  # 缺失值信息图

例如,cat_plot,

代码语言:javascript
复制
import klib
import plotly
import pandas as pd

df = pd.read_csv("./NFL_DATASET.csv").iloc[:, 10:]
df_cleaned = klib.data_cleaning(df) #清洗
klib.cat_plot(df_cleaned.iloc[:, 10:28], figsize=(24, 15)) #cat_plot可视化

例如,展示缺省值,

代码语言:javascript
复制
klib.missingval_plot(df_cleaned)

再例如,corr_interactive_plot基于plotly构建交互式相关性图表,

代码语言:javascript
复制
klib.corr_interactive_plot(df, annot=False, figsize=(20,17))

klib清洗数据

主要包含如下函数,

代码语言:javascript
复制
-klib.data_cleaning(df)  # 执行数据清洗(删除重复项和空行/列,调整数据类型等)
-klib.clean_column_names(df)  # 清理和标准化列名,也在 data_cleaning() 中调用
-klib.convert_datatypes(df)  # 将现有数据转换为更高效的数据类型,也在 data_cleaning() 中调用
-klib.drop_missing(df)  # 删除缺失值,也在 data_cleaning() 中调用
-klib.mv_col_handling(df)  # 基于信息内容删除缺失值比率高的特征
-klib.pool_duplicate_subsets(df)  # 基于最小信息损失汇总具有重复项的列子集

不一一举例,开源地址👉https://github.com/akanz1/klib

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-01-19,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 数据STUDIO 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • klib可视化数据
  • klib清洗数据
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档