公众号:尤而小屋
作者:Peter
编辑:Pete
大家好,我是Peter~
本文中介绍的是Categorical类型,主要实现的数据分类问题,用于承载基于整数的类别展示或编码的数据,帮助使用者获得更好的性能和内存使用...--MORE-->
背景:统计重复值
在一个Series数据中经常会出现重复值,我们需要提取这些不同的值并且分别计算它们的频数:
import numpy as np
import pandas as...s.codes # 查看分类编码
array([1, 0, 1, 1, 1, 0, 1, 1], dtype=int8)
如何生成Categorical对象
主要是两种方式:
指定DataFrame的一列为...Categorical对象
通过pandas.Categorical来生成
通过构造函数from_codes,前提是你必须先获得分类编码数据
# 方式1
df2["subject"] = df2[...,也就是one-hot编码(独热码);产生的DataFrame中不同的类别都是它的一列,看下面的例子:
data4 = pd.Series(["col1","col2","col3","col4"] \