首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >问答首页 >具有大量类的编码特性

具有大量类的编码特性
EN

Data Science用户
提问于 2022-01-09 01:33:58
回答 2查看 192关注 0票数 0

是否值得用大量的类(如60 )对特性进行编码?还是我应该把它留在原处?

EN

回答 2

Data Science用户

发布于 2022-01-09 02:04:40

大量的类被称为高基数(High Cardinality),指的是具有非常罕见或唯一值的列。

处理高基数取决于数据/用例/模型,

以下是我们可以用来处理高基数的方法:

  1. 下降(根据业务情况)
  2. 嵌入频率/计数
  3. 目标编码/ CatBoost编码。
  4. 用一个简单的聚合函数降低基数

请参阅下面的链接

票数 2
EN

Data Science用户

发布于 2022-01-09 07:19:14

通常,当我们有范畴变量时,我们做一个热编码转换成数值数据并在模型中使用。如果我们有n个类,我们得到n个变量。

现在,高基数变量是指那些有大量类的范畴变量,进行一次热编码可能会导致高维数据的出现,这是我们试图避免的。

但是在很多情况下,这些高基数变量可能有很多信息,我们希望将它们作为训练数据的一部分。要做到这一点,我们可以应用以下技术:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
      1. Try to drop the category which in less frequent or has a frequency of less then 1% or you can encode it with some special category say("rare"). You can use some business hypothesis to do that
      
      2. Replace the Categorical Variables by using Smoothed Weight of evidence encoding

      3. Use algorithms like CatBoost which encodes using Target encoding.

与任何其他变量一样,如果基数变量似乎与目标变量有某种关系,则似乎有必要对其进行编码,否则就不会。

有关更详细的分析,请参阅此链接

票数 1
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/106866

复制
相关文章
直传文件到Azure Storage的Blob服务中
题记:为了庆祝获得微信公众号赞赏功能,忙里抽闲分享一下最近工作的一点心得:如何直接从浏览器中上传文件到Azure Storage的Blob服务中。 为什么 如果你的Web应用程序利用了云存储(比如Az
逸鹏
2018/04/10
2.3K0
直传文件到Azure Storage的Blob服务中
.NET Core 批量重置 Azure Blob Storage 的 mime type
我的博客使用 Azure Blob Storage 存储文章配图,结果今天玩 Azure CDN 的时候爆了,原因是图片mime type不对。我们来看看如何在 .NET Core 里批量重置 Azure Blob Storage 中文件的mime type吧。
Edi Wang
2019/07/09
9020
.NET Core 批量重置 Azure Blob Storage 的 mime type
【壹刊】Azure Data Box
  最近博主又要面临考试了,随笔又再次缓慢更新,说起考试,之前在微软的 ms learn的课程上有接触到一个叫 Azure Data Box的,刚好今天也花了一个多小时看了一下相关文档,下面就正式开始介绍今天的主要内容 -----Azure Data Box
老张的哲学
2022/04/11
2930
【壹刊】Azure Data Box
MySQL 中Blob类型数据的插入和读取
​ 我们在操作数据存入blob数据的类型,常用来存储头像图片等流数据,blob类型如果想要存储比较大的流文件的数据,建议选用longBlob的数据类型,Demo中的数据就简单的示范了一下,sql文件如下:
Dream城堡
2019/05/24
9.6K0
基于data.table的“tidyverse”?
tidyverse作为R语言数据分析中的瑞士军刀,非常好用,一个小小的缺点就是速度慢,data.table速度快,所以他们团队又开发了dtplyr,加快运行速度。
医学和生信笔记
2022/11/15
4640
基于data.table的“tidyverse”?
【数据湖】Azure 数据湖分析(Azure Data Lake Analytics )概述
在本文中,我们将探索 Azure 数据湖分析并使用 U-SQL 查询数据。 Azure 数据湖分析 (ADLA) 简介 Microsoft Azure 平台支持 Hadoop、HDInsight、数据湖等大数据。通常,传统数据仓库存储来自各种数据源的数据,将数据转换为单一格式并进行分析以做出决策。开发人员使用可能需要更长时间进行数据检索的复杂查询。组织正在增加他们在云基础架构中的足迹。它利用了云基础设施仓库解决方案,例如 Amazon RedShift、Azure Synapse Analytics(A
架构师研究会
2022/03/08
1.1K0
关于data.table中i, j, by都为数字的理解
本期还是由村长来为大家供稿,这期讲一个村长遇到的关于data.table比较有趣的问题,希望大家支持!!
用户7652506
2020/10/23
1.3K0
关于data.table中i, j, by都为数字的理解
Ajax文件上传时:Formdata、File、Blob的关系
“Formdata”接口提供了一种表示表单数据的键值对 key/value 的构造方式,并且可以轻松的将数据通过XMLHttpRequest.send() 方法发送出去。
房东的狗丶
2023/02/17
3.2K0
PG中的blob cleanup
PG提供了一个很好的BLOB接口,得到了广泛应用。然而最近我们遇到了各种客户遇到的问题,有必要对PG如何处理blob进行一次思考,尤其是BLOB清理。
yzsDBA
2021/01/05
1.5K0
深入理解xhr的responseType中blob和arrayBuffer
版权声明:本文为吴孔云博客原创文章,转载请注明出处并带上链接,谢谢。 https://blog.csdn.net/wkyseo/article/details/78232485
空空云
2018/09/27
3.2K0
支持alter table move 的数据类型 :raw blob clob
结论: 支持alter table move 的数据类型 :raw blob clob  不支持的数据类型 :long 和 long raw 实践是检验真理的最佳方法! 测试过程 1.测试raw和blob类型 SQL> create table t_move (id raw(16),btype blob) tablespace users; Table created. SQL> insert into t_move values ('411FC4193
吹水老王
2022/05/17
6540
jquery中的 $.data() 和 $dom.data() 区别
其中 dataUser 是一个Data() 对象,Data对象没有任何特殊的地方。
用户7293182
2022/01/17
6440
jquery中的 $.data() 和 $dom.data() 区别
ADF 第三篇:Integration runtime和 Linked Service
Integration runtime(IR) 是Azure 数据工厂在不同的网络环境中进行数据集成的组件,用于几个环境中:
huofo
2022/03/18
1.5K0
ADF 第三篇:Integration runtime和 Linked Service
Shell中的管道
管道 管道,从一头进去,从另一头出来。 在Shell中,管道将一个程序的标准输出作为另一个程序的标准输入,就像用一根管子将一个程序的输出连接到另一个程序的输入一样。 管道的符号是|,下面的程序将cat的标准输出作为less的标准输入,以实现翻页的功能: $ cat source.list.bk | less tee 有时候我们想要同时将程序的输出显示在屏幕上(或进入管道)和保存到文件中,这个时候可以使用tee。 tee程序的输出和它的输入一样,但是会将输入内容额外的保存到文件中: $ cat hello.t
mwangblog
2018/07/04
9100
将数据从 SQL Server 导入 Azure Storage Table
最近有个需求要将数据存储从 SQL Server 数据库切换到 Azure Storage 中的 Table。然而不管是 SSMS 还是 Azure Portal 都没有提供直接的导入功能,是不是又想自己写程序去导数据了?其实不用!没有点过数据库天赋的我996了一个晚上,终于找到了点点鼠标就搞定的方法,今天分享给大家。
Edi Wang
2020/06/15
2K0
运行mysql时,提示Table ‘performance_schema.session_variables’ doesn’t exist
第一步:在管理员命令中输入: mysql_upgrade -u root -p --force 第二步:关闭并重启数据库 service mysql stop service mysql start
用户1558882
2018/04/03
8500
运行mysql时,提示Table ‘performance_schema.session_variables’ doesn’t exist
第一步:在管理员命令中输入: mysql_upgrade -u root -p --force 第二步:关闭并重启数据库 service mysql stop service mysql start
用户1558882
2018/10/11
3.3K0
MySQL 中 blob 和 text 数据类型详解
前面文章我们介绍过一些常用数据类型的用法,比如 int、char、varchar 等。一直没详细介绍过 blob 及 text 类型,虽然这两类数据类型不太常用,但在某些场景下还是会用到的。本篇文章将主要介绍 blob 及 text 数据类型的相关知识。
MySQL技术
2021/12/21
7.3K0
【数据仓库】什么是 Azure Synapse,它与 Azure Data Bricks 有何不同?
Azure Synapse Analytics 是一项针对大型公司的无限信息分析服务,它被呈现为 Azure SQL 数据仓库 (SQL DW) 的演变,将业务数据存储和宏或大数据分析结合在一起。 在处理、管理和提供数据以满足即时商业智能和数据预测需求时,Synapse 为所有工作负载提供单一服务。后者通过与 Power BI 和 Azure 机器学习的集成而成为可能,因为 Synapse 能够使用 ONNX 格式集成数学机器学习模型。它提供了处理和查询大量信息的自由度.作为微软在西班牙为数不多的 Pow
架构师研究会
2022/03/08
1.6K0
点击加载更多

相似问题

存储在Azure Blob中时缺少列名

18

如何从Azure ADF管道运行azure CLI命令?

123

停止运行Azure Data管道

41

azure ADF管道查询

27

data.table &列名

11
添加站长 进交流群

领取专属 10元无门槛券

AI混元助手 在线答疑

扫码加入开发者社群
关注 腾讯云开发者公众号

洞察 腾讯核心技术

剖析业界实践案例

扫码关注腾讯云开发者公众号
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
查看详情【社区公告】 技术创作特训营有奖征文