社区首页 >问答首页 >关于折叠变量和过采样少数类的问题

关于折叠变量和过采样少数类的问题
EN

Data Science用户
提问于 2023-02-08 07:32:07
回答 1查看 21关注 0票数 0

我有9个类组成的不平衡数据,我计划将它们合并成两个类。我根据这九个班在测试、验证和训练集之间进行分层(比例)抽样。现在,当我对训练数据进行过采样时,是在折叠前对这九个类进行过采样,还是应该先折叠它们,然后再过采样?

一般来说,我相信过度抽样然后崩溃会更好,但培训数据中的一些课程很小(5例),而另一些则相当大(1000例)。因此,我将重复对同一5种情况- 1,000例-进行抽样,这似乎很奇怪。另一方面,如果我崩溃然后过度采样,那么最小的类很有可能甚至不会被重放。

有什么建议吗?谢谢!

EN

回答 1

Data Science用户

发布于 2023-02-08 08:07:31

首先,欢迎来到数据科学堆栈交换。关于是否在减少班级数量之前或之后执行少数群体抽样的问题:好问题。

通过之前的过度抽样,您将确保在这九个类的上下文中,每个类是平衡的。然后,通过将它们分解成两个类,我们可能会再次造成阶级不平衡。因此,我的总体建议是先分解为两个类别,然后对数据进行少数群体过度抽样,使样本最少的类获得更多的人工示例,以等于多数类的数量。

票数 0
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/118385

复制
相关文章
过采样和欠采样_欠采样有几种情况
1、对基带信号进行欠采样是无法从采样信号中恢复出原始信号的,因此基带信号的采样都是过采样。
全栈程序员站长
2022/11/01
4.1K0
过采样系列一:采样定理与过采样率
数字世界是现实世界的镜像,模数转换器ADC则是连接这两个世界的大门。采样速率是ADC重要参数之一,围绕采样速率,有一条著名的定理:奈奎斯特采样定理。
工程师看海
2022/06/23
2.3K0
过采样系列一:采样定理与过采样率
过采样系列三:量化误差与过采样率
数字世界是模拟世界的镜像,而ADC就是连接两个世界的大门。一切模拟信号一旦经过ADC离散化后,其幅值必然会失真,其重要原因是ADC分辨率有限,只能逼近真实幅值。
工程师看海
2022/06/23
9550
过采样系列三:量化误差与过采样率
面试题69(关于类的成员变量调用的问题)
2018年1月22日 本期题目 (单选题)下列选项中哪一个是正确的? public class Test{ private float f=1.0; int m=12; sta
Java学习
2018/04/17
7700
面试题69(关于类的成员变量调用的问题)
盘点一个面向对象的类变量和实例变量问题
前几天在Python最强王者交流群有个叫【Chloe】的粉丝问了一个Python基础问题,这里拿出来给大家分享下,一起学习下。
前端皮皮
2022/08/17
6680
盘点一个面向对象的类变量和实例变量问题
关于引用变量赋值问题
* 2个引用变量指向同一个对象, 通过一个引用变量修改对象内部数据, 另一个引用变量也看得见
李才哥
2020/03/28
2.1K0
关于引用变量赋值问题
深入理解python类的实例变量和类变量
a = aa()     #将a投入aa这个类中,进行实例化# print a.add()   #这个结果显然易见# #下边两条指令各起何作用?结果是输出两个 20 么?还是两个13?还是? aa.w = 20   
py3study
2020/01/09
1.4K0
关于JS全局变量问题
二、Javascript在执行前会对整个脚本文件的声明部分做完整分析(包括局部变量),从而确定实变量的作用域。
全栈程序员站长
2022/09/07
3.1K0
关于php的成员变量和全局变量
而php中的全局变量是global定义下的全局变量,是真正的属于当前页面,或者当前文件都能使用的比如:
V站CEO-西顾
2018/06/10
3K1
在js中关于同名变量和函数的地位争夺问题
其实,在浏览器解析js代码的过程中,会有一个预编译的过程,遇到function 函数定义的部分,会先将该部分的代码提前,所以我们在第一个console.log(foo)中,会打印出function foo(){},第二个和第三个foo被变为1,所以会打出来1
Theone67
2019/11/21
2.7K0
【面试题】关于变量提升的问题
今天分享一个关于变量提升的简单问题, 请看下题,请回答三个console.log分别打印的值是多少?(请先在心里得出结论)
用户9914333
2022/07/21
2540
【面试题】关于变量提升的问题
关于SSH远程执行命令和环境变量的问题
不论是在学校里还是在公司中,远程登录服务器调试是一件很平常的事情。通过服务器,我们有很多种方式进行开发,喜欢极客风的可以直接通过Vim在服务器中进行开发,配合各种插件在开发效率上还是很高的;另一种就是利用IDE远程连接服务器进行调试,这样可以借助一些IDE的强大功能,提升自己的开发效率(Pycharm、VSCODE)。
老潘
2023/10/19
1.1K0
面试题46(关于类变量的调用)
public class Test{ private int a = 10; int b = 20; static int c = 1; public static void main(St
Java学习
2018/04/17
7690
关于python类中继承问题和描述器
有句话叫躲得过初一躲不过十五,学习python过程中也有很多坎儿是必须要面对的,不管愿不愿意,都要去尝试,或许几遍都搞不懂,但还是要试,要不然一直没法提升自己。
python与大数据分析
2022/03/11
3490
关于Java变量的可见性问题
摘要:关于java变量在工作内存和主存中的可见性问题 正文: package com.test;import java.util.concurrent.TimeUnit; public class test1 { private static boolean is = true; public static void main(String[] args) { new Thread(new Runnable() { @Override
itliusir
2018/05/21
1K0
过采样系列4:实例介绍(终篇)
这应该是过采样系列的最后一篇文章,经常有同学在使用FPGA、单片机或者DSP进行过采样时没有正确设计代码,导致结果异常,有些结果看似正常,而实际却没有意义。
工程师看海
2022/06/23
4760
过采样系列4:实例介绍(终篇)
Python类变量和实例变量区别
类变量:定义在类里面,通过类名或对象名引用,如果是通过对象名引用,会先找有没有这个同名的实例变量,如果没有,引用到的才是类变量,类变量的更新,只能通过类名,形如 类名.a = 55 ,不要指望通过实例引用类变量来更新类变量
王大力测试进阶之路
2019/10/25
1.5K0
Python面向对象编程-类和对象-实例变量和类变量
实例变量是指属于特定对象的变量。每个类的实例都具有自己的实例变量,它们的值可以不同。在上面的示例中,Person 类的 name 和 age 属性都是实例变量,因为它们属于特定的 Person 对象。
玖叁叁
2023/04/19
8470
两分钟带你彻底明白机器学习中的过采样和欠采样是什么意思?
是不同数据有不同定义,可分为空间/非空间数据。空间数据指空间上邻近的数据含有相关信息,可以用信号处理滤波的方法提取出这些相关信号,比如图像,声音。非空间数据指数据不是空间上的邻居,不能提取空间信息,比如身高,姓名,工作,收入等不相关信号。
计算机与AI
2020/11/19
4.8K0
两分钟带你彻底明白机器学习中的过采样和欠采样是什么意思?
关于微擎社区版业务菜单折叠问题进行更改
以前用的免费版的时候好像没有这样的情况,点击某个模块后再点击二级菜单并不会折叠。但是入手了社区版后,这个问题就好麻烦,每次都需要点一下展开才能去到其他菜单。
快乐的小白
2024/03/17
1680
关于微擎社区版业务菜单折叠问题进行更改

相似问题

平滑多类过采样

30

实施欠采样和过采样的建议

10

关于自举采样的问题

10

预测连续变量时的过采样

10

多分类的过采样/欠采样

10
添加站长 进交流群

领取专属 10元无门槛券

AI混元助手 在线答疑

扫码加入开发者社群
关注 腾讯云开发者公众号

洞察 腾讯核心技术

剖析业界实践案例

扫码关注腾讯云开发者公众号
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
查看详情【社区公告】 技术创作特训营有奖征文