这是我的第68篇原创文章,关于Python语言和数据科学。
阅读完本文,你可以知道:
1 pandas库apply函数的实用(向量化操作)
"学以致用,活学活用"
第一个数据科学小技巧:pandas库apply函数。
pandas库apply函数是用于数据处理和创建新变量最常用的函数之一。把数据框的每一行或者每一列传送到一些处理函数,可以返回一些结果。函数可以是默认函数或者自定义函数。
举例说明:计算数据框每一列(变量)或者每一行(样本)的缺失值个数
一 参考代码
# -*- coding: utf-8 -*-
"""
Created on Sun Mar 8 07:30:05 2020
数据科学小技巧1:pandas库apply函数应用(向量化操作)
@author: Luqing Wang
"""
# 导入库
import pandas as pd
# 自定义函数
def missing_count(x):
"""
函数功能:
--------
统计变量的缺失值个数
参数集:
------
:x:
返回值:
------
:missing_count: 缺失值个数
"""
missing_count = sum(x.isnull())
return missing_count
# 导入数据
loan = pd.read_csv('./data/loan_train.csv', index_col='Loan_ID')
# 数据检视
print(loan.head())
# 统计数据框中每一列(变量)缺失值个数
print('每一列缺失值的个数:')
print(loan.apply(missing_count, axis=0).head())
# 统计数据框每一行(样本)缺失值个数
print('每一行缺失值的个数:')
print(loan.apply(missing_count, axis=1).head())
二 代码结果
2.1 列缺失值计数结果
2.2 行缺失值计数结果
参考资料
https://github.com/kunalj101/Data-Science-Hacks