Pandas因子化实现-factorize
在针对分类型数据的编码中,之前介绍过独热码get_dummies。本文介绍另一种方法:因子化。...因子化将pandas中object类型的数据映射称为一组数字,相同的标称型映射为相同的数字,在数据挖掘中常作为一种编码方式来应用。...# 待编码数据
sort=False, # 是否对数据中的唯一值排序
na_sentinel=- 1, # 缺失值编码为-1
size_hint=None # 哈希表可选大小...在编码过程中编程-1
codes, uniques = pd.factorize(['b', 'b', 'a', 'c', None, 'b'])
codes
array([ 0, 0,...1
2 L 2
3 XS 3
4 S 4
通过map函数来直接映射,进行硬编码:
# 自定义编码
dic = {"XS":0,"S":1,"M":2,"L":3,"XL":4}
# 编码映射
df