首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

关于sklearn独热编码二.字符串型类别变量

---- 另一种解决方案 其实如果我们跳出 scikit-learn, 在 pandas 中可以很好地解决这个问题,用 pandas 自带的get_dummies函数即可 get_dummies的优势在于...: 本身就是 pandas 的模块,所以对 DataFrame 类型兼容很好 不管你列是数值型还是字符串型,都可以进行二值化编码 能够根据指令,自动生成二值化编码后的变量名 这么看来,我们找到最完美的解决方案了...get_dummies千般好,万般好,但毕竟不是 sklearn 里的transformer类型,所以得到的结果得手动输入到 sklearn 里的相应模块,也无法像 sklearn 的transformer...更重要的一点 get_dummies不像 sklearn 的transformer一样,有transform方法,所以一旦测试集中出现了训练集未曾出现过的特征取值,简单地对测试集、训练集都用get_dummies

1.4K20
您找到你想要的搜索结果了吗?
是的
没有找到

特征锦囊:如何对类别变量进行独热编码?

很多时候我们需要对类别变量进行独热编码,然后才可以作为入参给模型使用,独热的方式有很多种,这里介绍一个常用的方法 get_dummies吧,这个方法可以让类别变量按照枚举值生成N个(N为枚举值数量)新字段...我们还是用到我们的泰坦尼克号的数据集,同时使用我们上次锦囊分享的知识,对数据进行预处理操作,见下: # 导入相关库 import pandas as pd import numpy as np from...pandas import Series,DataFrame import re # 导入泰坦尼的数据集 data_train = pd.read_csv("....那么接下来我们对字段Title进行独热编码,这里使用get_dummies,生成N个0-1新字段: # 我们对字段Title进行独热编码,这里使用get_dummies,生成N个0-1新字段 dummies_title

1.2K30

sklearn中多种编码方式——category_encoders(one-hot多种用法)

get_dummies进行one-hot 额外:11 文本one_hot的方式 离散型编码的Python库,里面封装了十几种(包括文中的所有方法)对于离散型特征的编码方法,接口接近于Sklearn通用接口...Helmert、 Sum、 Backward Difference、 Polynomial 在机器学习问题里的效果往往不是很好(过拟合的原因) 额外:10 用pandasget_dummies进行one-hot...参考:pandas.get_dummies 的用法 pandas.get_dummies(data, prefix=None, prefix_sep='_', dummy_na=False, columns..., 'B'], ['blue' , 'A']]) df.columns = ['color', 'class'] pd.get_dummies(df) get_dummies...前: get_dummies 后: 上述执行完以后再打印df 出来的还是get_dummies 前的图,因为你没有写 df = pd.get_dummies(df) 可以对指定列进行get_dummies

3K20

Python中的虚拟变量(dummy variables)

① 离散特征的取值之间有大小的意义 例如:尺寸(L、XL、XXL) 离散特征的取值有大小意义的处理函数map pandas.Series.map(dict) 参数 dict:映射的字典 ② 离散特征的取值之间没有大小的意义...pandas.get_dummies 例如:颜色(Red,Blue,Green) 处理函数: get_dummies(data,prefix=None,prefix_sep="_",dummy_na=...columns 要处理的列名,如果不指定该列,那么默认处理所有列 ⑥ drop_first 是否从备选项中删除第一个,建模的时候为避免共线性使用 # -*- coding: utf-8 -*- import pandas...data = pandas.read_csv( 'D:\\PDA\\4.18\\data.csv', encoding='utf8' ) data['Education Level...'Education Level' ].map( educationLevelDict ) data['Gender'].drop_duplicates() dummies = pandas.get_dummies

3.3K80

【Python基础】在pandas中使用pipe()提升代码可读性

1 简介 我们在利用pandas开展数据分析时,应尽量避免过于「碎片化」的组织代码,尤其是创建出过多不必要的「中间变量」,既浪费了「内存」,又带来了关于变量命名的麻烦,更不利于整体分析过程代码的可读性,...图1 而在以前我撰写的一些文章中,为大家介绍过pandas中的eval()和query()这两个帮助我们链式书写代码,搭建数据分析工作流的实用API,再加上下面要介绍的pipe(),我们就可以将任意pandas...2 在pandas中灵活利用pipe() pipe()顾名思义,就是专门用于对Series和DataFrame操作进行流水线(pipeline)改造的API,其作用是将嵌套的函数调用过程改造为「链式」过程...传入函数对应的第一个位置上的参数必须是目标Series或DataFrame,其他相关的参数使用常规的「键值对」方式传入即可,就像下面的例子一样,我们自编函数对「泰坦尼克数据集」进行一些基础的特征工程处理: import pandas...data, dummy_columns): ''' 自编示例函数 ''' data = ( pd # 对指定列生成哑变量 .get_dummies

85530

pandas中使用pipe()提升代码可读性

1 简介   我们在利用pandas开展数据分析时,应尽量避免过于碎片化的组织代码,尤其是创建出过多不必要的中间变量,既浪费了内存,又带来了关于变量命名的麻烦,更不利于整体分析过程代码的可读性,因此以流水线方式组织代码非常有必要...而在以前我撰写的一些文章中,为大家介绍过pandas中的eval()和query()这两个帮助我们链式书写代码,搭建数据分析工作流的实用API,再加上下面要介绍的pipe(),我们就可以将任意pandas...2 在pandas中灵活利用pipe() pipe()顾名思义,就是专门用于对Series和DataFrame操作进行流水线(pipeline)改造的API,其作用是将嵌套的函数调用过程改造为链式过程...传入函数对应的第一个位置上的参数必须是目标Series或DataFrame,其他相关的参数使用常规的键值对方式传入即可,就像下面的例子一样,我们自编函数对泰坦尼克数据集进行一些基础的特征工程处理: import pandas...data, dummy_columns): ''' 自编示例函数 ''' data = ( pd # 对指定列生成哑变量 .get_dummies

44810
领券