前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >数据清洗之 缺失值处理

数据清洗之 缺失值处理

原创
作者头像
ruochen
修改2021-05-14 10:02:27
9130
修改2021-05-14 10:02:27
举报
文章被收录于专栏:若尘的技术专栏

缺失值处理

  • 缺失值首先需要根据实际情况定义
  • 可以采取直接删除法
  • 有时候需要使用替换法或者插值法
  • 常用的替换法有均值替换、前向、后向替换和常数替换
代码语言:txt
复制
import pandas as pd
import numpy as np
import os
代码语言:txt
复制
os.getcwd()
代码语言:txt
复制
'D:\\Jupyter\\notebook\\Python数据清洗实战\\数据清洗之数据预处理'
代码语言:txt
复制
os.chdir('D:\\Jupyter\\notebook\\Python数据清洗实战\\数据')
代码语言:txt
复制
df = pd.read_csv('MotorcycleData.csv', encoding='gbk', na_values='Na')
代码语言:txt
复制
def f(x):
    if '$' in str(x):
        x = str(x).strip('$')
        x = str(x).replace(',', '')
    else:
        x = str(x).replace(',', '')
    return float(x)
代码语言:txt
复制
df['Price'] = df['Price'].apply(f)
代码语言:txt
复制
df['Mileage'] = df['Mileage'].apply(f)
代码语言:txt
复制
# 计算缺失比例
df.apply(lambda x: sum(x.isnull())/len(x), axis=0)
代码语言:txt
复制
Condition         0.000000
代码语言:txt
复制
Condition_Desc    0.778994
代码语言:txt
复制
Price             0.000000
代码语言:txt
复制
Location          0.000267
代码语言:txt
复制
Model_Year        0.000534
代码语言:txt
复制
Mileage           0.003470
代码语言:txt
复制
Exterior_Color    0.095422
代码语言:txt
复制
Make              0.000534
代码语言:txt
复制
Warranty          0.318297
代码语言:txt
复制
Model             0.016415
代码语言:txt
复制
Sub_Model         0.676231
代码语言:txt
复制
Type              0.197785
代码语言:txt
复制
Vehicle_Title     0.964233
代码语言:txt
复制
OBO               0.008808
代码语言:txt
复制
Feedback_Perc     0.117710
代码语言:txt
复制
Watch_Count       0.530629
代码语言:txt
复制
N_Reviews         0.000801
代码语言:txt
复制
Seller_Status     0.083411
代码语言:txt
复制
Vehicle_Tile      0.007207
代码语言:txt
复制
Auction           0.002269
代码语言:txt
复制
Buy_Now           0.031630
代码语言:txt
复制
Bid_Count         0.707727
代码语言:txt
复制
dtype: float64
代码语言:txt
复制
df.head(3)

<div>

<style scoped>

代码语言:txt
复制
.dataframe tbody tr th:only-of-type {
代码语言:txt
复制
    vertical-align: middle;
代码语言:txt
复制
}
代码语言:txt
复制
.dataframe tbody tr th {
代码语言:txt
复制
    vertical-align: top;
代码语言:txt
复制
}
代码语言:txt
复制
.dataframe thead th {
代码语言:txt
复制
    text-align: right;
代码语言:txt
复制
}

</style>

<table border="1" class="dataframe">

<thead>

代码语言:txt
复制
<tr style="text-align: right;">
代码语言:txt
复制
  <th></th>
代码语言:txt
复制
  <th>Condition</th>
代码语言:txt
复制
  <th>Condition_Desc</th>
代码语言:txt
复制
  <th>Price</th>
代码语言:txt
复制
  <th>Location</th>
代码语言:txt
复制
  <th>Model_Year</th>
代码语言:txt
复制
  <th>Mileage</th>
代码语言:txt
复制
  <th>Exterior_Color</th>
代码语言:txt
复制
  <th>Make</th>
代码语言:txt
复制
  <th>Warranty</th>
代码语言:txt
复制
  <th>Model</th>
代码语言:txt
复制
  <th>...</th>
代码语言:txt
复制
  <th>Vehicle_Title</th>
代码语言:txt
复制
  <th>OBO</th>
代码语言:txt
复制
  <th>Feedback_Perc</th>
代码语言:txt
复制
  <th>Watch_Count</th>
代码语言:txt
复制
  <th>N_Reviews</th>
代码语言:txt
复制
  <th>Seller_Status</th>
代码语言:txt
复制
  <th>Vehicle_Tile</th>
代码语言:txt
复制
  <th>Auction</th>
代码语言:txt
复制
  <th>Buy_Now</th>
代码语言:txt
复制
  <th>Bid_Count</th>
代码语言:txt
复制
</tr>

</thead>

<tbody>

代码语言:txt
复制
<tr>
代码语言:txt
复制
  <th>0</th>
代码语言:txt
复制
  <td>Used</td>
代码语言:txt
复制
  <td>mint!!! very low miles</td>
代码语言:txt
复制
  <td>11412.0</td>
代码语言:txt
复制
  <td>McHenry, Illinois, United States</td>
代码语言:txt
复制
  <td>2013.0</td>
代码语言:txt
复制
  <td>16000.0</td>
代码语言:txt
复制
  <td>Black</td>
代码语言:txt
复制
  <td>Harley-Davidson</td>
代码语言:txt
复制
  <td>Unspecified</td>
代码语言:txt
复制
  <td>Touring</td>
代码语言:txt
复制
  <td>...</td>
代码语言:txt
复制
  <td>NaN</td>
代码语言:txt
复制
  <td>FALSE</td>
代码语言:txt
复制
  <td>8.1</td>
代码语言:txt
复制
  <td>NaN</td>
代码语言:txt
复制
  <td>2427</td>
代码语言:txt
复制
  <td>Private Seller</td>
代码语言:txt
复制
  <td>Clear</td>
代码语言:txt
复制
  <td>True</td>
代码语言:txt
复制
  <td>FALSE</td>
代码语言:txt
复制
  <td>28.0</td>
代码语言:txt
复制
</tr>
代码语言:txt
复制
<tr>
代码语言:txt
复制
  <th>1</th>
代码语言:txt
复制
  <td>Used</td>
代码语言:txt
复制
  <td>Perfect condition</td>
代码语言:txt
复制
  <td>17200.0</td>
代码语言:txt
复制
  <td>Fort Recovery, Ohio, United States</td>
代码语言:txt
复制
  <td>2016.0</td>
代码语言:txt
复制
  <td>60.0</td>
代码语言:txt
复制
  <td>Black</td>
代码语言:txt
复制
  <td>Harley-Davidson</td>
代码语言:txt
复制
  <td>Vehicle has an existing warranty</td>
代码语言:txt
复制
  <td>Touring</td>
代码语言:txt
复制
  <td>...</td>
代码语言:txt
复制
  <td>NaN</td>
代码语言:txt
复制
  <td>FALSE</td>
代码语言:txt
复制
  <td>100</td>
代码语言:txt
复制
  <td>17</td>
代码语言:txt
复制
  <td>657</td>
代码语言:txt
复制
  <td>Private Seller</td>
代码语言:txt
复制
  <td>Clear</td>
代码语言:txt
复制
  <td>True</td>
代码语言:txt
复制
  <td>TRUE</td>
代码语言:txt
复制
  <td>0.0</td>
代码语言:txt
复制
</tr>
代码语言:txt
复制
<tr>
代码语言:txt
复制
  <th>2</th>
代码语言:txt
复制
  <td>Used</td>
代码语言:txt
复制
  <td>NaN</td>
代码语言:txt
复制
  <td>3872.0</td>
代码语言:txt
复制
  <td>Chicago, Illinois, United States</td>
代码语言:txt
复制
  <td>1970.0</td>
代码语言:txt
复制
  <td>25763.0</td>
代码语言:txt
复制
  <td>Silver/Blue</td>
代码语言:txt
复制
  <td>BMW</td>
代码语言:txt
复制
  <td>Vehicle does NOT have an existing warranty</td>
代码语言:txt
复制
  <td>R-Series</td>
代码语言:txt
复制
  <td>...</td>
代码语言:txt
复制
  <td>NaN</td>
代码语言:txt
复制
  <td>FALSE</td>
代码语言:txt
复制
  <td>100</td>
代码语言:txt
复制
  <td>NaN</td>
代码语言:txt
复制
  <td>136</td>
代码语言:txt
复制
  <td>NaN</td>
代码语言:txt
复制
  <td>Clear</td>
代码语言:txt
复制
  <td>True</td>
代码语言:txt
复制
  <td>FALSE</td>
代码语言:txt
复制
  <td>26.0</td>
代码语言:txt
复制
</tr>

</tbody>

</table>

<p>3 rows × 22 columns</p>

</div>

代码语言:txt
复制
# how = 'all', 只有当前行都是缺失值才删除
# how = 'any', 只要当前行有一个缺失值就删除
df.dropna(how = 'any', axis=0)

<div>

<style scoped>

代码语言:txt
复制
.dataframe tbody tr th:only-of-type {
代码语言:txt
复制
    vertical-align: middle;
代码语言:txt
复制
}
代码语言:txt
复制
.dataframe tbody tr th {
代码语言:txt
复制
    vertical-align: top;
代码语言:txt
复制
}
代码语言:txt
复制
.dataframe thead th {
代码语言:txt
复制
    text-align: right;
代码语言:txt
复制
}

</style>

<table border="1" class="dataframe">

<thead>

代码语言:txt
复制
<tr style="text-align: right;">
代码语言:txt
复制
  <th></th>
代码语言:txt
复制
  <th>Condition</th>
代码语言:txt
复制
  <th>Condition_Desc</th>
代码语言:txt
复制
  <th>Price</th>
代码语言:txt
复制
  <th>Location</th>
代码语言:txt
复制
  <th>Model_Year</th>
代码语言:txt
复制
  <th>Mileage</th>
代码语言:txt
复制
  <th>Exterior_Color</th>
代码语言:txt
复制
  <th>Make</th>
代码语言:txt
复制
  <th>Warranty</th>
代码语言:txt
复制
  <th>Model</th>
代码语言:txt
复制
  <th>...</th>
代码语言:txt
复制
  <th>Vehicle_Title</th>
代码语言:txt
复制
  <th>OBO</th>
代码语言:txt
复制
  <th>Feedback_Perc</th>
代码语言:txt
复制
  <th>Watch_Count</th>
代码语言:txt
复制
  <th>N_Reviews</th>
代码语言:txt
复制
  <th>Seller_Status</th>
代码语言:txt
复制
  <th>Vehicle_Tile</th>
代码语言:txt
复制
  <th>Auction</th>
代码语言:txt
复制
  <th>Buy_Now</th>
代码语言:txt
复制
  <th>Bid_Count</th>
代码语言:txt
复制
</tr>

</thead>

<tbody>

</tbody>

</table>

<p>0 rows × 22 columns</p>

</div>

代码语言:txt
复制
# subset 根据指定字段判断
# df.dropna(how='any', subset=['Condition', 'Price', 'Mileage'])
代码语言:txt
复制
# 缺失值使用0填补
df.fillna(0).head(5)

<div>

<style scoped>

代码语言:txt
复制
.dataframe tbody tr th:only-of-type {
代码语言:txt
复制
    vertical-align: middle;
代码语言:txt
复制
}
代码语言:txt
复制
.dataframe tbody tr th {
代码语言:txt
复制
    vertical-align: top;
代码语言:txt
复制
}
代码语言:txt
复制
.dataframe thead th {
代码语言:txt
复制
    text-align: right;
代码语言:txt
复制
}

</style>

<table border="1" class="dataframe">

<thead>

代码语言:txt
复制
<tr style="text-align: right;">
代码语言:txt
复制
  <th></th>
代码语言:txt
复制
  <th>Condition</th>
代码语言:txt
复制
  <th>Condition_Desc</th>
代码语言:txt
复制
  <th>Price</th>
代码语言:txt
复制
  <th>Location</th>
代码语言:txt
复制
  <th>Model_Year</th>
代码语言:txt
复制
  <th>Mileage</th>
代码语言:txt
复制
  <th>Exterior_Color</th>
代码语言:txt
复制
  <th>Make</th>
代码语言:txt
复制
  <th>Warranty</th>
代码语言:txt
复制
  <th>Model</th>
代码语言:txt
复制
  <th>...</th>
代码语言:txt
复制
  <th>Vehicle_Title</th>
代码语言:txt
复制
  <th>OBO</th>
代码语言:txt
复制
  <th>Feedback_Perc</th>
代码语言:txt
复制
  <th>Watch_Count</th>
代码语言:txt
复制
  <th>N_Reviews</th>
代码语言:txt
复制
  <th>Seller_Status</th>
代码语言:txt
复制
  <th>Vehicle_Tile</th>
代码语言:txt
复制
  <th>Auction</th>
代码语言:txt
复制
  <th>Buy_Now</th>
代码语言:txt
复制
  <th>Bid_Count</th>
代码语言:txt
复制
</tr>

</thead>

<tbody>

代码语言:txt
复制
<tr>
代码语言:txt
复制
  <th>0</th>
代码语言:txt
复制
  <td>Used</td>
代码语言:txt
复制
  <td>mint!!! very low miles</td>
代码语言:txt
复制
  <td>11412.0</td>
代码语言:txt
复制
  <td>McHenry, Illinois, United States</td>
代码语言:txt
复制
  <td>2013.0</td>
代码语言:txt
复制
  <td>16000.0</td>
代码语言:txt
复制
  <td>Black</td>
代码语言:txt
复制
  <td>Harley-Davidson</td>
代码语言:txt
复制
  <td>Unspecified</td>
代码语言:txt
复制
  <td>Touring</td>
代码语言:txt
复制
  <td>...</td>
代码语言:txt
复制
  <td>0</td>
代码语言:txt
复制
  <td>FALSE</td>
代码语言:txt
复制
  <td>8.1</td>
代码语言:txt
复制
  <td>0</td>
代码语言:txt
复制
  <td>2427</td>
代码语言:txt
复制
  <td>Private Seller</td>
代码语言:txt
复制
  <td>Clear</td>
代码语言:txt
复制
  <td>True</td>
代码语言:txt
复制
  <td>FALSE</td>
代码语言:txt
复制
  <td>28.0</td>
代码语言:txt
复制
</tr>
代码语言:txt
复制
<tr>
代码语言:txt
复制
  <th>1</th>
代码语言:txt
复制
  <td>Used</td>
代码语言:txt
复制
  <td>Perfect condition</td>
代码语言:txt
复制
  <td>17200.0</td>
代码语言:txt
复制
  <td>Fort Recovery, Ohio, United States</td>
代码语言:txt
复制
  <td>2016.0</td>
代码语言:txt
复制
  <td>60.0</td>
代码语言:txt
复制
  <td>Black</td>
代码语言:txt
复制
  <td>Harley-Davidson</td>
代码语言:txt
复制
  <td>Vehicle has an existing warranty</td>
代码语言:txt
复制
  <td>Touring</td>
代码语言:txt
复制
  <td>...</td>
代码语言:txt
复制
  <td>0</td>
代码语言:txt
复制
  <td>FALSE</td>
代码语言:txt
复制
  <td>100</td>
代码语言:txt
复制
  <td>17</td>
代码语言:txt
复制
  <td>657</td>
代码语言:txt
复制
  <td>Private Seller</td>
代码语言:txt
复制
  <td>Clear</td>
代码语言:txt
复制
  <td>True</td>
代码语言:txt
复制
  <td>TRUE</td>
代码语言:txt
复制
  <td>0.0</td>
代码语言:txt
复制
</tr>
代码语言:txt
复制
<tr>
代码语言:txt
复制
  <th>2</th>
代码语言:txt
复制
  <td>Used</td>
代码语言:txt
复制
  <td>0</td>
代码语言:txt
复制
  <td>3872.0</td>
代码语言:txt
复制
  <td>Chicago, Illinois, United States</td>
代码语言:txt
复制
  <td>1970.0</td>
代码语言:txt
复制
  <td>25763.0</td>
代码语言:txt
复制
  <td>Silver/Blue</td>
代码语言:txt
复制
  <td>BMW</td>
代码语言:txt
复制
  <td>Vehicle does NOT have an existing warranty</td>
代码语言:txt
复制
  <td>R-Series</td>
代码语言:txt
复制
  <td>...</td>
代码语言:txt
复制
  <td>0</td>
代码语言:txt
复制
  <td>FALSE</td>
代码语言:txt
复制
  <td>100</td>
代码语言:txt
复制
  <td>0</td>
代码语言:txt
复制
  <td>136</td>
代码语言:txt
复制
  <td>0</td>
代码语言:txt
复制
  <td>Clear</td>
代码语言:txt
复制
  <td>True</td>
代码语言:txt
复制
  <td>FALSE</td>
代码语言:txt
复制
  <td>26.0</td>
代码语言:txt
复制
</tr>
代码语言:txt
复制
<tr>
代码语言:txt
复制
  <th>3</th>
代码语言:txt
复制
  <td>Used</td>
代码语言:txt
复制
  <td>CLEAN TITLE   READY TO RIDE HOME</td>
代码语言:txt
复制
  <td>6575.0</td>
代码语言:txt
复制
  <td>Green Bay, Wisconsin, United States</td>
代码语言:txt
复制
  <td>2009.0</td>
代码语言:txt
复制
  <td>33142.0</td>
代码语言:txt
复制
  <td>Red</td>
代码语言:txt
复制
  <td>Harley-Davidson</td>
代码语言:txt
复制
  <td>0</td>
代码语言:txt
复制
  <td>Touring</td>
代码语言:txt
复制
  <td>...</td>
代码语言:txt
复制
  <td>0</td>
代码语言:txt
复制
  <td>FALSE</td>
代码语言:txt
复制
  <td>100</td>
代码语言:txt
复制
  <td>0</td>
代码语言:txt
复制
  <td>2920</td>
代码语言:txt
复制
  <td>Dealer</td>
代码语言:txt
复制
  <td>Clear</td>
代码语言:txt
复制
  <td>True</td>
代码语言:txt
复制
  <td>FALSE</td>
代码语言:txt
复制
  <td>11.0</td>
代码语言:txt
复制
</tr>
代码语言:txt
复制
<tr>
代码语言:txt
复制
  <th>4</th>
代码语言:txt
复制
  <td>Used</td>
代码语言:txt
复制
  <td>0</td>
代码语言:txt
复制
  <td>10000.0</td>
代码语言:txt
复制
  <td>West Bend, Wisconsin, United States</td>
代码语言:txt
复制
  <td>2012.0</td>
代码语言:txt
复制
  <td>17800.0</td>
代码语言:txt
复制
  <td>Blue</td>
代码语言:txt
复制
  <td>Harley-Davidson</td>
代码语言:txt
复制
  <td>NO WARRANTY</td>
代码语言:txt
复制
  <td>Touring</td>
代码语言:txt
复制
  <td>...</td>
代码语言:txt
复制
  <td>0</td>
代码语言:txt
复制
  <td>FALSE</td>
代码语言:txt
复制
  <td>100</td>
代码语言:txt
复制
  <td>13</td>
代码语言:txt
复制
  <td>271</td>
代码语言:txt
复制
  <td>OWNER</td>
代码语言:txt
复制
  <td>Clear</td>
代码语言:txt
复制
  <td>True</td>
代码语言:txt
复制
  <td>TRUE</td>
代码语言:txt
复制
  <td>0.0</td>
代码语言:txt
复制
</tr>

</tbody>

</table>

<p>5 rows × 22 columns</p>

</div>

代码语言:txt
复制
# 针对一个变量进行缺失值判断,使用其均值进行填补
df.Mileage.fillna(df.Mileage.mean()).head(5)
代码语言:txt
复制
0    16000.0
代码语言:txt
复制
1       60.0
代码语言:txt
复制
2    25763.0
代码语言:txt
复制
3    33142.0
代码语言:txt
复制
4    17800.0
代码语言:txt
复制
Name: Mileage, dtype: float64
代码语言:txt
复制
df.columns
代码语言:txt
复制
Index(['Condition', 'Condition_Desc', 'Price', 'Location', 'Model_Year',
代码语言:txt
复制
       'Mileage', 'Exterior_Color', 'Make', 'Warranty', 'Model', 'Sub_Model',
代码语言:txt
复制
       'Type', 'Vehicle_Title', 'OBO', 'Feedback_Perc', 'Watch_Count',
代码语言:txt
复制
       'N_Reviews', 'Seller_Status', 'Vehicle_Tile', 'Auction', 'Buy_Now',
代码语言:txt
复制
       'Bid_Count'],
代码语言:txt
复制
      dtype='object')
代码语言:txt
复制
df[df['Exterior_Color'].isnull()].head(5)

<div>

<style scoped>

代码语言:txt
复制
.dataframe tbody tr th:only-of-type {
代码语言:txt
复制
    vertical-align: middle;
代码语言:txt
复制
}
代码语言:txt
复制
.dataframe tbody tr th {
代码语言:txt
复制
    vertical-align: top;
代码语言:txt
复制
}
代码语言:txt
复制
.dataframe thead th {
代码语言:txt
复制
    text-align: right;
代码语言:txt
复制
}

</style>

<table border="1" class="dataframe">

<thead>

代码语言:txt
复制
<tr style="text-align: right;">
代码语言:txt
复制
  <th></th>
代码语言:txt
复制
  <th>Condition</th>
代码语言:txt
复制
  <th>Condition_Desc</th>
代码语言:txt
复制
  <th>Price</th>
代码语言:txt
复制
  <th>Location</th>
代码语言:txt
复制
  <th>Model_Year</th>
代码语言:txt
复制
  <th>Mileage</th>
代码语言:txt
复制
  <th>Exterior_Color</th>
代码语言:txt
复制
  <th>Make</th>
代码语言:txt
复制
  <th>Warranty</th>
代码语言:txt
复制
  <th>Model</th>
代码语言:txt
复制
  <th>...</th>
代码语言:txt
复制
  <th>Vehicle_Title</th>
代码语言:txt
复制
  <th>OBO</th>
代码语言:txt
复制
  <th>Feedback_Perc</th>
代码语言:txt
复制
  <th>Watch_Count</th>
代码语言:txt
复制
  <th>N_Reviews</th>
代码语言:txt
复制
  <th>Seller_Status</th>
代码语言:txt
复制
  <th>Vehicle_Tile</th>
代码语言:txt
复制
  <th>Auction</th>
代码语言:txt
复制
  <th>Buy_Now</th>
代码语言:txt
复制
  <th>Bid_Count</th>
代码语言:txt
复制
</tr>

</thead>

<tbody>

代码语言:txt
复制
<tr>
代码语言:txt
复制
  <th>14</th>
代码语言:txt
复制
  <td>Used</td>
代码语言:txt
复制
  <td>NaN</td>
代码语言:txt
复制
  <td>5500.0</td>
代码语言:txt
复制
  <td>Davenport, Iowa, United States</td>
代码语言:txt
复制
  <td>2008.0</td>
代码语言:txt
复制
  <td>22102.0</td>
代码语言:txt
复制
  <td>NaN</td>
代码语言:txt
复制
  <td>Harley-Davidson</td>
代码语言:txt
复制
  <td>Vehicle does NOT have an existing warranty</td>
代码语言:txt
复制
  <td>Touring</td>
代码语言:txt
复制
  <td>...</td>
代码语言:txt
复制
  <td>NaN</td>
代码语言:txt
复制
  <td>FALSE</td>
代码语言:txt
复制
  <td>9.3</td>
代码语言:txt
复制
  <td>NaN</td>
代码语言:txt
复制
  <td>244</td>
代码语言:txt
复制
  <td>Private Seller</td>
代码语言:txt
复制
  <td>Clear</td>
代码语言:txt
复制
  <td>True</td>
代码语言:txt
复制
  <td>FALSE</td>
代码语言:txt
复制
  <td>16.0</td>
代码语言:txt
复制
</tr>
代码语言:txt
复制
<tr>
代码语言:txt
复制
  <th>35</th>
代码语言:txt
复制
  <td>Used</td>
代码语言:txt
复制
  <td>NaN</td>
代码语言:txt
复制
  <td>7700.0</td>
代码语言:txt
复制
  <td>Roselle, Illinois, United States</td>
代码语言:txt
复制
  <td>2007.0</td>
代码语言:txt
复制
  <td>10893.0</td>
代码语言:txt
复制
  <td>NaN</td>
代码语言:txt
复制
  <td>Harley-Davidson</td>
代码语言:txt
复制
  <td>NaN</td>
代码语言:txt
复制
  <td>Other</td>
代码语言:txt
复制
  <td>...</td>
代码语言:txt
复制
  <td>NaN</td>
代码语言:txt
复制
  <td>FALSE</td>
代码语言:txt
复制
  <td>100</td>
代码语言:txt
复制
  <td>NaN</td>
代码语言:txt
复制
  <td>236</td>
代码语言:txt
复制
  <td>NaN</td>
代码语言:txt
复制
  <td>Clear</td>
代码语言:txt
复制
  <td>False</td>
代码语言:txt
复制
  <td>TRUE</td>
代码语言:txt
复制
  <td>NaN</td>
代码语言:txt
复制
</tr>
代码语言:txt
复制
<tr>
代码语言:txt
复制
  <th>41</th>
代码语言:txt
复制
  <td>Used</td>
代码语言:txt
复制
  <td>NaN</td>
代码语言:txt
复制
  <td>6800.0</td>
代码语言:txt
复制
  <td>Hampshire, Illinois, United States</td>
代码语言:txt
复制
  <td>2003.0</td>
代码语言:txt
复制
  <td>55782.0</td>
代码语言:txt
复制
  <td>NaN</td>
代码语言:txt
复制
  <td>Harley-Davidson</td>
代码语言:txt
复制
  <td>Vehicle does NOT have an existing warranty</td>
代码语言:txt
复制
  <td>Softail</td>
代码语言:txt
复制
  <td>...</td>
代码语言:txt
复制
  <td>NaN</td>
代码语言:txt
复制
  <td>TRUE</td>
代码语言:txt
复制
  <td>100</td>
代码语言:txt
复制
  <td>2&lt;</td>
代码语言:txt
复制
  <td>298</td>
代码语言:txt
复制
  <td>Private Seller</td>
代码语言:txt
复制
  <td>Clear</td>
代码语言:txt
复制
  <td>False</td>
代码语言:txt
复制
  <td>TRUE</td>
代码语言:txt
复制
  <td>NaN</td>
代码语言:txt
复制
</tr>
代码语言:txt
复制
<tr>
代码语言:txt
复制
  <th>55</th>
代码语言:txt
复制
  <td>Used</td>
代码语言:txt
复制
  <td>NaN</td>
代码语言:txt
复制
  <td>29500.0</td>
代码语言:txt
复制
  <td>Parma, Michigan, United States</td>
代码语言:txt
复制
  <td>1950.0</td>
代码语言:txt
复制
  <td>8471.0</td>
代码语言:txt
复制
  <td>NaN</td>
代码语言:txt
复制
  <td>Harley-Davidson</td>
代码语言:txt
复制
  <td>NaN</td>
代码语言:txt
复制
  <td>Other</td>
代码语言:txt
复制
  <td>...</td>
代码语言:txt
复制
  <td>NaN</td>
代码语言:txt
复制
  <td>TRUE</td>
代码语言:txt
复制
  <td>100</td>
代码语言:txt
复制
  <td>24</td>
代码语言:txt
复制
  <td>216</td>
代码语言:txt
复制
  <td>NaN</td>
代码语言:txt
复制
  <td>Clear</td>
代码语言:txt
复制
  <td>False</td>
代码语言:txt
复制
  <td>TRUE</td>
代码语言:txt
复制
  <td>NaN</td>
代码语言:txt
复制
</tr>
代码语言:txt
复制
<tr>
代码语言:txt
复制
  <th>72</th>
代码语言:txt
复制
  <td>Used</td>
代码语言:txt
复制
  <td>NaN</td>
代码语言:txt
复制
  <td>6500.0</td>
代码语言:txt
复制
  <td>Bourbonnais, Illinois, United States</td>
代码语言:txt
复制
  <td>1986.0</td>
代码语言:txt
复制
  <td>55300.0</td>
代码语言:txt
复制
  <td>NaN</td>
代码语言:txt
复制
  <td>Harley-Davidson</td>
代码语言:txt
复制
  <td>NaN</td>
代码语言:txt
复制
  <td>Touring</td>
代码语言:txt
复制
  <td>...</td>
代码语言:txt
复制
  <td>NaN</td>
代码语言:txt
复制
  <td>TRUE</td>
代码语言:txt
复制
  <td>100</td>
代码语言:txt
复制
  <td>2&lt;</td>
代码语言:txt
复制
  <td>1</td>
代码语言:txt
复制
  <td>Private Seller</td>
代码语言:txt
复制
  <td>Clear</td>
代码语言:txt
复制
  <td>False</td>
代码语言:txt
复制
  <td>TRUE</td>
代码语言:txt
复制
  <td>NaN</td>
代码语言:txt
复制
</tr>

</tbody>

</table>

<p>5 rows × 22 columns</p>

</div>

代码语言:txt
复制
# 求众数
df['Exterior_Color'].mode()[0]
代码语言:txt
复制
'Black'
代码语言:txt
复制
# 缺失用众数填补
df['Exterior_Color'].fillna(df['Exterior_Color'].mode()[0]).head(5)
代码语言:txt
复制
0          Black
代码语言:txt
复制
1          Black
代码语言:txt
复制
2    Silver/Blue
代码语言:txt
复制
3            Red
代码语言:txt
复制
4           Blue
代码语言:txt
复制
Name: Exterior_Color, dtype: object
代码语言:txt
复制
df['Mileage'].median()
代码语言:txt
复制
7083.0
代码语言:txt
复制
# 对不同变量使用不同数据填补
# 不加inplace=True,不会对原数据生效
df.fillna(value={'Exterior_Color': df['Exterior_Color'].mode()[0], 
                'Mileage': df['Mileage'].median(),}).head(5)

<div>

<style scoped>

代码语言:txt
复制
.dataframe tbody tr th:only-of-type {
代码语言:txt
复制
    vertical-align: middle;
代码语言:txt
复制
}
代码语言:txt
复制
.dataframe tbody tr th {
代码语言:txt
复制
    vertical-align: top;
代码语言:txt
复制
}
代码语言:txt
复制
.dataframe thead th {
代码语言:txt
复制
    text-align: right;
代码语言:txt
复制
}

</style>

<table border="1" class="dataframe">

<thead>

代码语言:txt
复制
<tr style="text-align: right;">
代码语言:txt
复制
  <th></th>
代码语言:txt
复制
  <th>Condition</th>
代码语言:txt
复制
  <th>Condition_Desc</th>
代码语言:txt
复制
  <th>Price</th>
代码语言:txt
复制
  <th>Location</th>
代码语言:txt
复制
  <th>Model_Year</th>
代码语言:txt
复制
  <th>Mileage</th>
代码语言:txt
复制
  <th>Exterior_Color</th>
代码语言:txt
复制
  <th>Make</th>
代码语言:txt
复制
  <th>Warranty</th>
代码语言:txt
复制
  <th>Model</th>
代码语言:txt
复制
  <th>...</th>
代码语言:txt
复制
  <th>Vehicle_Title</th>
代码语言:txt
复制
  <th>OBO</th>
代码语言:txt
复制
  <th>Feedback_Perc</th>
代码语言:txt
复制
  <th>Watch_Count</th>
代码语言:txt
复制
  <th>N_Reviews</th>
代码语言:txt
复制
  <th>Seller_Status</th>
代码语言:txt
复制
  <th>Vehicle_Tile</th>
代码语言:txt
复制
  <th>Auction</th>
代码语言:txt
复制
  <th>Buy_Now</th>
代码语言:txt
复制
  <th>Bid_Count</th>
代码语言:txt
复制
</tr>

</thead>

<tbody>

代码语言:txt
复制
<tr>
代码语言:txt
复制
  <th>0</th>
代码语言:txt
复制
  <td>Used</td>
代码语言:txt
复制
  <td>mint!!! very low miles</td>
代码语言:txt
复制
  <td>11412.0</td>
代码语言:txt
复制
  <td>McHenry, Illinois, United States</td>
代码语言:txt
复制
  <td>2013.0</td>
代码语言:txt
复制
  <td>16000.0</td>
代码语言:txt
复制
  <td>Black</td>
代码语言:txt
复制
  <td>Harley-Davidson</td>
代码语言:txt
复制
  <td>Unspecified</td>
代码语言:txt
复制
  <td>Touring</td>
代码语言:txt
复制
  <td>...</td>
代码语言:txt
复制
  <td>NaN</td>
代码语言:txt
复制
  <td>FALSE</td>
代码语言:txt
复制
  <td>8.1</td>
代码语言:txt
复制
  <td>NaN</td>
代码语言:txt
复制
  <td>2427</td>
代码语言:txt
复制
  <td>Private Seller</td>
代码语言:txt
复制
  <td>Clear</td>
代码语言:txt
复制
  <td>True</td>
代码语言:txt
复制
  <td>FALSE</td>
代码语言:txt
复制
  <td>28.0</td>
代码语言:txt
复制
</tr>
代码语言:txt
复制
<tr>
代码语言:txt
复制
  <th>1</th>
代码语言:txt
复制
  <td>Used</td>
代码语言:txt
复制
  <td>Perfect condition</td>
代码语言:txt
复制
  <td>17200.0</td>
代码语言:txt
复制
  <td>Fort Recovery, Ohio, United States</td>
代码语言:txt
复制
  <td>2016.0</td>
代码语言:txt
复制
  <td>60.0</td>
代码语言:txt
复制
  <td>Black</td>
代码语言:txt
复制
  <td>Harley-Davidson</td>
代码语言:txt
复制
  <td>Vehicle has an existing warranty</td>
代码语言:txt
复制
  <td>Touring</td>
代码语言:txt
复制
  <td>...</td>
代码语言:txt
复制
  <td>NaN</td>
代码语言:txt
复制
  <td>FALSE</td>
代码语言:txt
复制
  <td>100</td>
代码语言:txt
复制
  <td>17</td>
代码语言:txt
复制
  <td>657</td>
代码语言:txt
复制
  <td>Private Seller</td>
代码语言:txt
复制
  <td>Clear</td>
代码语言:txt
复制
  <td>True</td>
代码语言:txt
复制
  <td>TRUE</td>
代码语言:txt
复制
  <td>0.0</td>
代码语言:txt
复制
</tr>
代码语言:txt
复制
<tr>
代码语言:txt
复制
  <th>2</th>
代码语言:txt
复制
  <td>Used</td>
代码语言:txt
复制
  <td>NaN</td>
代码语言:txt
复制
  <td>3872.0</td>
代码语言:txt
复制
  <td>Chicago, Illinois, United States</td>
代码语言:txt
复制
  <td>1970.0</td>
代码语言:txt
复制
  <td>25763.0</td>
代码语言:txt
复制
  <td>Silver/Blue</td>
代码语言:txt
复制
  <td>BMW</td>
代码语言:txt
复制
  <td>Vehicle does NOT have an existing warranty</td>
代码语言:txt
复制
  <td>R-Series</td>
代码语言:txt
复制
  <td>...</td>
代码语言:txt
复制
  <td>NaN</td>
代码语言:txt
复制
  <td>FALSE</td>
代码语言:txt
复制
  <td>100</td>
代码语言:txt
复制
  <td>NaN</td>
代码语言:txt
复制
  <td>136</td>
代码语言:txt
复制
  <td>NaN</td>
代码语言:txt
复制
  <td>Clear</td>
代码语言:txt
复制
  <td>True</td>
代码语言:txt
复制
  <td>FALSE</td>
代码语言:txt
复制
  <td>26.0</td>
代码语言:txt
复制
</tr>
代码语言:txt
复制
<tr>
代码语言:txt
复制
  <th>3</th>
代码语言:txt
复制
  <td>Used</td>
代码语言:txt
复制
  <td>CLEAN TITLE   READY TO RIDE HOME</td>
代码语言:txt
复制
  <td>6575.0</td>
代码语言:txt
复制
  <td>Green Bay, Wisconsin, United States</td>
代码语言:txt
复制
  <td>2009.0</td>
代码语言:txt
复制
  <td>33142.0</td>
代码语言:txt
复制
  <td>Red</td>
代码语言:txt
复制
  <td>Harley-Davidson</td>
代码语言:txt
复制
  <td>NaN</td>
代码语言:txt
复制
  <td>Touring</td>
代码语言:txt
复制
  <td>...</td>
代码语言:txt
复制
  <td>NaN</td>
代码语言:txt
复制
  <td>FALSE</td>
代码语言:txt
复制
  <td>100</td>
代码语言:txt
复制
  <td>NaN</td>
代码语言:txt
复制
  <td>2920</td>
代码语言:txt
复制
  <td>Dealer</td>
代码语言:txt
复制
  <td>Clear</td>
代码语言:txt
复制
  <td>True</td>
代码语言:txt
复制
  <td>FALSE</td>
代码语言:txt
复制
  <td>11.0</td>
代码语言:txt
复制
</tr>
代码语言:txt
复制
<tr>
代码语言:txt
复制
  <th>4</th>
代码语言:txt
复制
  <td>Used</td>
代码语言:txt
复制
  <td>NaN</td>
代码语言:txt
复制
  <td>10000.0</td>
代码语言:txt
复制
  <td>West Bend, Wisconsin, United States</td>
代码语言:txt
复制
  <td>2012.0</td>
代码语言:txt
复制
  <td>17800.0</td>
代码语言:txt
复制
  <td>Blue</td>
代码语言:txt
复制
  <td>Harley-Davidson</td>
代码语言:txt
复制
  <td>NO WARRANTY</td>
代码语言:txt
复制
  <td>Touring</td>
代码语言:txt
复制
  <td>...</td>
代码语言:txt
复制
  <td>NaN</td>
代码语言:txt
复制
  <td>FALSE</td>
代码语言:txt
复制
  <td>100</td>
代码语言:txt
复制
  <td>13</td>
代码语言:txt
复制
  <td>271</td>
代码语言:txt
复制
  <td>OWNER</td>
代码语言:txt
复制
  <td>Clear</td>
代码语言:txt
复制
  <td>True</td>
代码语言:txt
复制
  <td>TRUE</td>
代码语言:txt
复制
  <td>0.0</td>
代码语言:txt
复制
</tr>

</tbody>

</table>

<p>5 rows × 22 columns</p>

</div>

代码语言:txt
复制
# 前向填补
df['Exterior_Color'].fillna(method='ffill').tail(10)
代码语言:txt
复制
7483      Purple
代码语言:txt
复制
7484      Purple
代码语言:txt
复制
7485       Black
代码语言:txt
复制
7486       Black
代码语言:txt
复制
7487        Gray
代码语言:txt
复制
7488       Black
代码语言:txt
复制
7489       Black
代码语言:txt
复制
7490         Red
代码语言:txt
复制
7491    TWO TONE
代码语言:txt
复制
7492        Gray
代码语言:txt
复制
Name: Exterior_Color, dtype: object
代码语言:txt
复制
# 后向填补
df['Exterior_Color'].fillna(method='bfill').tail(10)
代码语言:txt
复制
7483      Purple
代码语言:txt
复制
7484       Black
代码语言:txt
复制
7485       Black
代码语言:txt
复制
7486       Black
代码语言:txt
复制
7487        Gray
代码语言:txt
复制
7488       Black
代码语言:txt
复制
7489       Black
代码语言:txt
复制
7490         Red
代码语言:txt
复制
7491    TWO TONE
代码语言:txt
复制
7492        Gray
代码语言:txt
复制
Name: Exterior_Color, dtype: object

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 缺失值处理
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档