--MORE-->
背景:统计重复值
在一个Series数据中经常会出现重复值,我们需要提取这些不同的值并且分别计算它们的频数:
import numpy as np
import pandas as...', 'height', 'subject', 'score', 'height']
Categories (3, object): ['height', 'score', 'subject']
一般分类转换是不会指定类别的顺序...,我们可以通过一个参数ordered来指定有有意义的顺序:
[008i3skNly1gu1bm3a5xaj614e092gn202.jpg]
['height', 'score', 'height',...将分类数据转成虚拟变量,也就是one-hot编码(独热码);产生的DataFrame中不同的类别都是它的一列,看下面的例子:
data4 = pd.Series(["col1","col2","col3...Categories (4, object): ['col1', 'col2', 'col3', 'col4']
pd.get\_dummies(data4) # get\_dummies:将一维的分类数据转换成一个包含虚拟变量的