因子化常用的方法:
pandas.factorize()
Series.factorize()
Index.factorize()
函数说明
pandas.factorize(
values,.../docs/reference/api/pandas.factorize.html
针对数组
import pandas as pd
import numpy as np
codes, uniques...codes
array([0, 0, 1, 2, 0, 1])
uniques
array(['b', 'a', 'c'], dtype=object)
参数sort的使用:对唯一值进行排序,排序后的顺序仍然和原来值出现的顺序保持一致...codes
array([ 0, 0, 1, 2, -1, 0])
uniques
array(['b', 'a', 'c'], dtype=object)
针对Series
本身red、blue等取值就是无序的...1, 2, 3, 4])
uniques
Index(['M', 'XL', 'L', 'XS', 'S'], dtype='object')
可以看到结果中codes数值的大小是根据uniques中取值的顺序来的