面对缺失值三种处理方法:
option 1: 去掉含有缺失值的样本(行)
option 2:将含有缺失值的列(特征向量)去掉
option 3:将缺失值用某些值填充(0,平均值,中值等)
对于dropna...axis=1: 删除包含缺失值的列
how: 与axis配合使用
how=‘any’ :只要有缺失值出现,就删除该行货列
how=‘all’: 所有的值都缺失,才删除行或列
thresh: axis...(labels=None, axis=0, index=None, columns=None, level=None, inplace=False, errors='raise')
labels: 要删除行或列的列表...inplace=False, limit=None, downcast=None, **kwargs)
value: scalar, dict, Series, or DataFrame
dict 可以指定每一行或列用什么值填充...4
房价分析:
在此问题中,只有bedroom一列有缺失值,按照此三种方法处理代码为:
# option 1 将含有缺失值的行去掉 housing.dropna(subset=["total_bedrooms