前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >【数据清洗 | 数据规约】数据类别型数据 编码最佳实践,确定不来看看?

【数据清洗 | 数据规约】数据类别型数据 编码最佳实践,确定不来看看?

原创
作者头像
计算机魔术师
发布2023-11-30 22:16:44
1440
发布2023-11-30 22:16:44
举报
文章被收录于专栏:计算机魔术师计算机魔术师
在这里插入图片描述
在这里插入图片描述

🤵‍♂️ 个人主页: @AI_magician

📡主页地址: 作者简介:CSDN内容合伙人,全栈领域优质创作者。

👨‍💻景愿:旨在于能和更多的热爱计算机的伙伴一起成长!!🐱‍🏍

🙋‍♂️声明:本人目前大学就读于大二,研究兴趣方向人工智能&硬件(虽然硬件还没开始玩,但一直很感兴趣!希望大佬带带)

在这里插入图片描述
在这里插入图片描述

该文章收录专栏

[✨--- 《深入解析机器学习:从原理到应用的全面指南》 ---✨]

数据归约
特征编码(哑变量 & 独热编码 & 标签编码)

我们首先将类别型数据分为两个类

  1. 定类型变量 定类类型就是离散数据,不排序,没有逻辑关系. 当某特征具有k个属性值,那么: a. 哑变量(Dummy variable,也称为虚拟变量或指示变量)—— 具有k-1个二进制特征,基准类别将被忽略, 若基准类别选择不合理,仍存在共线性(高度相关线性),建议众数的类别为基准类别。 b. 独热编码——具有k个特征二进制特征。
  2. 定序型变量 标签编码——用自定义的数字对原始特征进行打标签,适用于有序的分类变量。

编码的意义

不用对变量归一化,加速参数的更新速度;使得一个很大权值管理一个特征,拆分成了许多小的权值管理这个特征多个表示,降低了特征值扰动对模型的影响,模型具有更好的鲁棒性,将数据转换成可训练的格式

编码优缺点

  1. 定类变量 异常数据具有很强的鲁棒性;离散化之后可以进行特征交叉,引入非线性,提高模型表达能力。 一个特征被分割多份,损失部分统计信息,学习效果差。 a. 哑变量:从k-1个变量推论第k个类别,不太直观,但不冗余; b. 独热编码:从k个变量看出所有变量类别,比较直观,但特征冗余;独热特征高度相关,易导致共线;
  2. 定序变量

标签编码:可以自定义量化数字,但数值本身没有含义,仅用作排序;可解释性比较差,比如‘大学’,‘高中’,‘初中’,‘小学’ —>1,2,3,4,’大学‘和’小学相隔的距离更远。‘

用法

  1. 定类变量 对数值大小较敏感的模型,如LR SVM

截距(intercept)是线性模型中的一个参数,它表示当所有自变量(或哑变量)都为零时,因变量的预期平均值。在线性回归模型中,截距是一个常数,它对应于自变量取值为零时的因变量取值。

a. 对于哑变量编码,截距表示的是基准类别(通常是编码中的第一个类别)的取值,而哑变量的回归系数表示其他类别与基准类别之间的平均差异。

b. 在线性模型中,如果有截距项,使用哑变量编码可以处理多余的自由度,因为多余的自由度可以被统摄到截距项中。这意味着,当使用哑变量编码时,只需要使用n-1个哑变量来表示n个类别,其中n是类别的数量。剩下的一个类别可以被认为是基准类别,截距项对应于基准类别的取值。

c. 如果线性模型有截距项,并且使用正则化技术(如L1或L2正则化),那么使用独热编码可能更合适。正则化会约束系数的大小,使得各个变量的重要性相对均等。这意味着,即使使用了独热编码,每个类别都有一个独立的变量,正则化也可以帮助控制这些变量的影响,使它们不会对模型造成过大的影响。

d. 如果线性模型没有截距项,而且使用独热编码,那么每个类别都将有一个独立的变量。这种情况下,模型将完全依赖于这些变量的取值来预测因变量,而没有一个基准类别。这种编码方式通常用于特定需求的模型,例如需要明确控制每个类别的影响。

总之,截距项在线性模型中是一个重要的参数,它 对应于自变量取值为零时的因变量取值。具体使用哪种编码方式(哑变量编码或独热编码)取决于模型的需求以及是否使用正则化等技术。

  1. 定序型变量 既分类又排序,自定义的数字顺序可以不破坏原有逻辑,并与这个逻辑相对应。对数值大小不敏感的模型(如树模型)不建议使用one-hotencoding

选择建议

算法上:最好是选择正则化 + one-hot,哑变量编码也可以使用,不过最好选择前者。

对于树模型,不推荐使用定类编码,因为样本切分不均衡时,增益效果甚微(如较小的那个拆分样本集,它占总样本的比例太小。无论增益多大,乘以该比例之后几乎可以忽略);

实现上:

哑变量在pandas的get_dummy方法,one-hot在from sklearn.preprocessing import OneHotEncoder

pandas机制问题需要在内存中把数据集都读入进来,要是数据量大的话,太消耗资源,one-hot可以读数组,因此大规模数据集很方便。

模板代码

代码语言:python
复制
from sklearn.preprocessing import OneHotEncoder
import pandas as pd
df = pd.DataFrame([  
            ['green' , 'A'],   
            ['red'   , 'B'],   
            ['blue'  , 'A']])  
df.columns = ['color',  'class'] 
#one-hot编码
onehot=OneHotEncoder(sparse=False)
data=onehot.fit_transform(df[['color']])
print("one-hot编码结果如下:")
print(data)
#哑变量编码
#pd.get_dummies()方法即可以用于产生One-Hot编码,也可以用于产生哑变量编码
#当drop_first=True时为哑变量编码,当为False时为One-Hot编码
#哑变量编码是将One-Hot编码的第一列结果去掉即可。
data=pd.get_dummies(df['color'],drop_first=True)
print("哑变量编码结果如下:")
print(data)

参考文章:

https://blog.51cto.com/u_16099322/8207171

https://www.cnblogs.com/HuZihu/p/9692554.html

https://blog.csdn.net/yeshang_lady/article/details/103940513

在这里插入图片描述
在这里插入图片描述
代码语言:txt
复制
						  🤞到这里,如果还有什么疑问🤞
代码语言:txt
复制
					🎩欢迎私信博主问题哦,博主会尽自己能力为你解答疑惑的!🎩
代码语言:txt
复制
					 	 🥳如果对你有帮助,你的赞是对博主最大的支持!!🥳【数据清洗 | 数据规约】数据类别型数据 编码最佳实践,确定不来看看?

我正在参与2023腾讯技术创作特训营第三期有奖征文,组队打卡瓜分大奖!

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 数据归约
    • 特征编码(哑变量 & 独热编码 & 标签编码)
    领券
    问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档