专栏首页Python与Excel之交介绍一种更优雅的数据预处理方法!

介绍一种更优雅的数据预处理方法!

我们知道现实中的数据通常是杂乱无章的,需要大量的预处理才能使用。Pandas 是应用最广泛的数据分析和处理库之一,它提供了多种对原始数据进行预处理的方法。

在本文中,我们将重点讨论一个将「多个预处理操作」组织成「单个操作」的特定函数:pipe。

在本文中,我将通过示例方式来展示如何使用它,让我们从数据创建数据帧开始吧。

import numpy as np
import pandas as pd
df = pd.DataFrame({
   "id": [100, 100, 101, 102, 103, 104, 105, 106],
   "A": [1, 2, 3, 4, 5, 2, np.nan, 5],
   "B": [45, 56, 48, 47, 62, 112, 54, 49],
   "C": [1.2, 1.4, 1.1, 1.8, np.nan, 1.4, 1.6, 1.5]
})
df

上述数据中 NaN 表示的缺失值,id 列包含重复的值,B 列中的 112 似乎是一个异常值。

这些就是现实数据中的一些典型问题。我们将创建一个管道来处理刚才描述的问题。对于每个任务,我们都需要一个函数。因此,首先是创建放置在管道中的函数。需要注意的是,管道中使用的函数需要将数据帧作为参数并返回数据帧。

第一个函数是处理缺少的值

def fill_missing_values(df):
   for col in df.select_dtypes(include= ["int","float"]).columns:
      val = df[col].mean()
      df[col].fillna(val, inplace=True)
   return df

我喜欢用列的平均值替换数字列中缺少的值,当然你也可以根据具体场景来定义。只要它将数据帧作为参数并返回数据帧,它就可以在管道中工作。

第二个函数是帮助我们删除重复的值

def drop_duplicates(df, column_name):
   df = df.drop_duplicates(subset=column_name)
   return df

调用 Pandas 内置的 drop duplicates 函数,它可以消除给定列中的重复值。

最后一个函数是用于消除异常值

def remove_outliers(df, column_list):
   for col in column_list:
      avg = df[col].mean()
      std = df[col].std()
      low = avg - 2 * std
      high = avg + 2 * std
      df = df[df[col].between(low, high, inclusive=True)]
   return df

此函数的作用如下:

  • 需要一个数据帧和一列列表
  • 对于列表中的每一列,它计算平均值和标准偏差
  • 计算标准差,并使用下限平均值
  • 删除下限和上限定义的范围之外的值

与前面的函数一样,你可以选择自己的检测异常值的方法。

创建管道

我们现在有3个函数来进行数据预处理的任务。接下来就是使用这些函数创建管道。

df_processed = (df.pipe(fill_missing_values).pipe(drop_duplicates, "id").pipe(remove_outliers, ["A","B"]))

此管道按给定顺序执行函数。我们可以将参数和函数名一起传递给管道。

这里需要提到的一点是,管道中的一些函数修改了原始数据帧。因此,使用上述管道也将更新df。

解决此问题的一个方法是在管道中使用原始数据帧的副本。如果你不关心保持原始数据帧的原样,那么可以在管道中使用它。

我将更新管道,如下所示:

my_df = df.copy()
df_processed = (my_df.pipe(fill_missing_values).pipe(drop_duplicates, "id").pipe(remove_outliers, ["A","B"]))

让我们看一下原始数据帧和处理后的数据帧:

结论

当然,你可以通过单独使用这些函数来完成相同的任务。但是,管道函数提供了一种结构化和有组织的方式,可以将多个功能组合到单个操作中。

根据原始数据和任务,预处理可能包括更多步骤。可以根据需要在管道函数中添加任意数量的步骤。随着步骤数量的增加,与单独执行函数相比,管道函数的语法变得更清晰。

本文分享自微信公众号 - Python与Excel之交(Yi-Python-Excel)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2021-08-18

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 几种简单的文本数据预处理方法

    本文将介绍几种简单的文本数据预处理方法,希望与大家共同学习分享。

    杨熹
  • 整理一份详细的数据预处理方法

    作者:lswbjtu https://zhuanlan.zhihu.com/p/51131210

    统计学家
  • 整理一份详细的数据预处理方法

    熟悉数据挖掘和机器学习的小伙伴们都知道,数据处理相关的工作时间占据了整个项目的70%以上。数据的质量,直接决定了模型的预测和泛化能力的好坏。它涉及很多因素,包括...

    Datawhale
  • 干货 | 整理一份详细的数据预处理方法

    作者:lswbjtu https://zhuanlan.zhihu.com/p/51131210

    Python数据科学
  • 一文看懂数据预处理最重要的3种思想和方法

    导读:本文我们考虑应当采用哪些预处理步骤,让数据更加适合挖掘。数据预处理是一个广泛的领域,包含大量以复杂的方式相关联的不同策略和技术。我们将讨论一些最重要的思想...

    华章科技
  • R语言数据分析与挖掘(第一章):数据预处理(2)——缺失值常用的处理方法

    上一篇文章(缺失值处理)介绍了缺失值处理的判断方法,这一讲接着介绍缺失值常用的几种处理方法:删除法,替换法和插补法。不同的方法对应不同类型的缺失值。

    DoubleHelix
  • MySQL 处理海量数据时的一些优化查询速度方法

    在参与实际项目中,当 MySQL 表的数据量达到百万级时,普通的 SQL 查询效率呈直线下降,而且如果 where 中的查询条件较多时,其查询速度无法容忍。想想...

    小莹莹
  • 不用try也可以优雅的处理异常

    Pythonista[1]们都知道使用 try 和 except 来处理可能发生的异常,当异常发生时执行我们预先编写好的代码块。

    somenzz
  • Flask构建微电影(一) 第一章、项目介绍第二章、环境搭建

    zhang_derek
  • 引入AI应用,英特尔全面展现从云、网络到边缘、PC生态的智能化

    CES 2020正在进行中,AI、5G、自动驾驶等关键词层出不穷,而在这几大关键技术领域均有布局的英特尔,自然不会缺席这场盛宴。

    镁客网
  • 还看不懂同事的代码?超强的 Stream 流操作姿势还不学习一下

    我们都知道 Lambda 和 Stream 是 Java 8 的两大亮点功能,在前面的文章里已经介绍过 Lambda 相关知识,这次介绍下 Java 8 的 S...

    未读代码
  • 一文聊透 Dubbo 优雅停机

    一年之前,我曾经写过一篇《研究优雅停机时的一点思考》,主要介绍了 kill -9,kill -15 两个 Linux 指令的含义,并且针对性的聊到了 Sprin...

    kirito-moe
  • 新书《R语言编程—基于tidyverse》信息汇总

    我之前预告过的 R 语言新书,起名为《R语言编程—基于tidyverse》,本书的目的是为了在国内推广 R 语言和 R 语言最新技术。本书非常适合新手 R 语言...

    庄闪闪
  • 面对数据缺失,如何选择合适的机器学习模型?

    作者:阿萨姆 普华永道 | 数据科学家 量子位 已获授权编辑发布 转载请联系原作者 有些小伙伴在实际使用中发现xgboost可以自动处理缺失值,而有些模型不可以...

    量子位
  • 惊了!7 行代码优雅地实现 Excel 文件导出功能?

    关于导出 Excel 文件,可以说是大多数服务中都需要集成的功能。那么,要如何优雅快速地(偷懒地)去实现这个功能呢?

    JAVA葵花宝典
  • 什么是Sass

    小胖
  • Kubernetes 中如何保证优雅地停止 Pod

    一直以来我对优雅地停止 Pod 这件事理解得很单纯:不就利用是 PreStop hook 做优雅退出吗?但最近发现很多场景下 PreStop Hook 并不能很...

    PingCAP
  • Kubernetes 中如何保证优雅地停止 Pod

    一直以来我对优雅地停止 Pod 这件事理解得很单纯:不就利用是 PreStop Hook 做优雅退出吗?但最近发现很多场景下 PreStop Hook 并不能很...

    CNCF
  • 优雅停止Pod

    一直以来我对优雅地停止 Pod 这件事理解得很单纯:不就利用是 PreStop hook 做优雅退出吗?但最近发现很多场景下 PreStop Hook 并不能很...

    常见_youmen

扫码关注云+社区

领取腾讯云代金券