专栏首页数据科学与人工智能数据科学小技巧1:pandas库apply函数

数据科学小技巧1:pandas库apply函数

这是我的第68篇原创文章,关于Python语言和数据科学。

阅读完本文,你可以知道:

1 pandas库apply函数的实用(向量化操作)

"学以致用,活学活用"

第一个数据科学小技巧:pandas库apply函数。

pandas库apply函数是用于数据处理和创建新变量最常用的函数之一。把数据框的每一行或者每一列传送到一些处理函数,可以返回一些结果。函数可以是默认函数或者自定义函数。

举例说明:计算数据框每一列(变量)或者每一行(样本)的缺失值个数

一 参考代码

# -*- coding: utf-8 -*-
"""
Created on Sun Mar  8 07:30:05 2020
数据科学小技巧1:pandas库apply函数应用(向量化操作)
@author: Luqing Wang 
"""

# 导入库
import pandas as pd

# 自定义函数
def missing_count(x):
    """
    函数功能:
    --------
    统计变量的缺失值个数

    参数集:
    ------
    :x: 

    返回值:
    ------
    :missing_count: 缺失值个数
    """
    missing_count = sum(x.isnull())
    return missing_count

# 导入数据
loan = pd.read_csv('./data/loan_train.csv', index_col='Loan_ID')

# 数据检视
print(loan.head())

# 统计数据框中每一列(变量)缺失值个数
print('每一列缺失值的个数:')
print(loan.apply(missing_count, axis=0).head())

# 统计数据框每一行(样本)缺失值个数
print('每一行缺失值的个数:')
print(loan.apply(missing_count, axis=1).head())

二 代码结果

2.1 列缺失值计数结果

2.2 行缺失值计数结果

参考资料

https://github.com/kunalj101/Data-Science-Hacks

本文分享自微信公众号 - 数据科学与人工智能(DS_AI_shujuren)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2020-03-08

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 代价函数

    代价函数,度量【假设集】的准确性。 机器学习中常用的代价函数,总结如下: 1 误差平方和函数 ? 说明:yi 是模型预测值,oi是样本实际值 2 交叉熵函数...

    陆勤_数据人网
  • 3月28日数据动态早报

    数据动态早报,让您了解数据新变化、新创造和新价值。 ? ---- 一、通信行业数据动态 1 5G将让军队通讯近乎无阻碍:中国将率先实现商用。关键应用场景主要...

    陆勤_数据人网
  • 【数据挖掘】聚类算法总结

    一、层次聚类 1、层次聚类的原理及分类 1)层次法(Hierarchicalmethods)先计算样本之间的距离。每次将距离最近的点合并到同一个类。然后,再计算...

    陆勤_数据人网
  • 面试题:Spring为什么默认bean为单例?

    版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。 ...

    用户1212940
  • LeetCode 20 Valid Parentheses

    ShenduCC
  • Python程序员每天必做的几个动作

    ------------------------------------------

    Python小屋屋主
  • 【Flutter高级玩法】 贝塞尔曲线的表象认知

    由于点位需要变化,BezierPainter只承担绘制的责任,这里在组件中定义点位信息_pos和选中索引_selectIndex ,通过构造函数传入Bezier...

    张风捷特烈
  • Python制作表白小助手

    Python版本:3.6.5 相关模块: pygame模块; 以及一些Python自带的模块。

    PM小王
  • strstr函数的详细讲解

    定义:strstr(str1,str2) 函数用于判断字符串str2是否是str1的子串。如果是,则该函数返回str2在str1中首次出现的地址;否则,返回NU...

    用户7727433
  • 『互联网架构』软件架构-分布式之大型网站的演变过程(28)

    1.session集群问题 2.数据一致性问题 3.数据瓶颈(一旦流量上来了,虽然应用做了集群,但是数据库没有做集群,还是一个主库),这时候要考虑主从数据库。

    IT故事会

扫码关注云+社区

领取腾讯云代金券