首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

在R中采样具有多个级别的类别,并从每个类别中提取特定的样本大小

在R中,可以使用函数stratified来采样具有多个级别的类别,并从每个类别中提取特定的样本大小。

stratified函数属于rsample包,它提供了一种分层抽样的方法,可以根据不同类别的比例来采样数据。

以下是一个示例代码,演示如何在R中采样具有多个级别的类别,并从每个类别中提取特定的样本大小:

代码语言:txt
复制
library(rsample)

# 创建一个具有多个级别的类别变量
category <- factor(rep(c("A", "B", "C"), times = c(20, 30, 50)))

# 设置每个类别需要提取的样本大小
sample_sizes <- c(A = 5, B = 10, C = 15)

# 使用stratified函数进行分层抽样
stratified_sampling <- stratified(category, strata = category, size = sample_sizes)

# 查看采样结果
stratified_sampling

在上述示例中,首先创建了一个具有多个级别的类别变量category,其中类别A有20个观测值,类别B有30个观测值,类别C有50个观测值。

然后,通过设置sample_sizes向量来指定每个类别需要提取的样本大小。在本例中,类别A需要提取5个样本,类别B需要提取10个样本,类别C需要提取15个样本。

最后,使用stratified函数进行分层抽样,其中strata参数指定了分层变量,这里使用了同样的category变量。size参数指定了每个类别需要提取的样本大小。

运行代码后,将得到一个采样结果,其中包含了从每个类别中提取的特定样本大小的数据集。

请注意,以上示例中使用的是rsample包中的stratified函数,这是一种常见的方法,但并不是唯一的方法。在实际应用中,还可以根据具体需求使用其他采样方法或包。

页面内容是否对你有帮助?
有帮助
没帮助

相关·内容

不平衡问题: 深度神经网络训练之殇

具体来说,实例平衡采样是每个样本被采样的概率相等,而类别平衡采样是每个类别被采样的概率相等;平方根采样是实例平衡采样的一种变体,其中每个类别的采样概率与相应类别中样本大小的平方根有关;渐进平衡采样在实例平衡采样和类别平衡采样之间进行渐进插值...此外,五元组损失中的每个数据批次包含来自不同类别的相同数量的样本,用于类别重平衡。...,通过调整训练期间不同类别的损失值来对类别进行重新平衡,近期的研究提出了各种代价敏感学习方法来处理类别不平衡问题,包括类别级重加权和类别级re-margining。...[11]全面分析了不平衡任务中的logit调整方法,并从理论上表明logit调整是费雪一致 (Fisher consistent, 即当损失函数降到最小时,识别错误率也会最小)的,可以以最小化每个类别的平均错误...在该聚类树中,原始节点中的模型在ImageNet-1K上进行预训练;每个子节点中的模型继承其父节点的模型参数,然后基于簇节点中的样本进行微调。

1.7K30

SSD: Single Shot MultiBox Detector

在我们的方法中,相对于在MultiBox和YOLO中所做的整个feature map,我们通过feature map中每个位置的底层1×1 feature来预测每个先验的多个类别的偏移调整和置信度。...4.1.2、SSD和Baseline检测器的比较SSD与MultiBox具有相似的目标,但它具有在单阶段评价中检测多个类别的能力,而不是使用两阶段法。表1显示了随着类别数量的增加,SSD性能如何变化。...表2显示,Fast R-CNN和Faster R-CNN的性能略优于SSD,这可能是因为它们具有较大的输入图像大小。然而,Faster R-CNN要慢得多,因为它仍然需要提取proposal步骤。...其中一个原因是针对多个类别的多个feature map的所有位置都有很多检测。可以只更新所有的正样本和一小部分负样本(难负)来减少训练时间。...目前SSD使用单一网络来预测多个类别的偏移量和置信度,这可能很难学习。在未来,我们希望使用两个独立的塔来进行定位和分类,这样每个塔对于特定的子任务都可以更轻的重量,从而解耦问题的复杂性,提高训练速度。

2K10
  • 目标检测领域中的数据不均衡问题综述

    这个问题是物体在本质上具有不同维度这一事实的自然结果。规模也可能导致特征级别的不平衡(通常在“特征提取”阶段处理),不同抽象层(即高级别和低级别)的贡献不平衡。...当有多个目标(损失函数)要最小化时(每个目标用于特定任务,例如分类和框回归),就会出现目标不平衡。...硬采样的思路:设置指定数量或者比例的正负样本(RCNN系列)。 软采样的思路:软抽样通过对训练过程的相对重要性来调整每个样本的贡献(设定样本损失权重)。...无采样方式:设立新的分支,根据前面的样本,预测后面样本的权重。 生成方法:主要基于GAN。 2、前景前景不均衡 主要集中在数据集上的类别不均衡,和每个bacth内的类别不均衡。...基于batch内的类别不均衡:可以使用在线前景均衡(OFB)抽样,通过给每个要抽样的bounding box分配概率,可以在批处理级别上缓解前景类不平衡问题,从而使批处理中不同类的分布是均匀的。

    1.1K20

    AAAI 2023 Oral | 回归元学习,基于变分特征聚合的少样本目标检测实现新SOTA

    基于 CAA,本文又提出了 VFA,其采用变分编码器(VAEs)将 Support 样本编码为类的分布,并从学习到的分布中采样新的 Support 特征进行特征融合。...VFA 在多个 FSOD 数据集上表现优于目前最好的模型,相关研究已经被 AAAI 2023 录用为 Oral。...在本文中,我们首先将 Support 特征转换为类别的分布。由于估计出的类别分布不偏向于特定样本,因此从分布中采样的特征对样本的方差有较好的鲁棒性。VFA 的框架如上图二所示。 a)变分特征学习。...由于 Support 特征被转换为类别的分布,我们可以从分布中采样特征并与 Query 特征聚合。具体来说,VFA 同样采用类别无关聚合 CAA,但将 Query 特征 与变分特征 聚合在一起。...但是分类任务需要平移不变特征,而回归需要平移协变的特征。由于 Support 特征表示的是类别的中心,具有平移不变性,因此聚合后特征会损害回归任务。 本文提出一种简单的分类 - 回归任务解耦。

    62810

    增量学习不只有finetune,三星AI提出增量式少样本目标检测算法ONCE | CVPR 2020

    iFSD(Incremental Few-Shot Detection),场景设置如下: 检测模型可以在包含充足样本的基础类别上进行训练 训练好后,iFSD能够应用到真实世界中,任何新类别在任何时候都能通过少量标注样本进行注册...第一阶段训练类不可知的特征提取器,第二阶段固定特征提取器,联合训练目标定位器和meta-network,meta-network根据给定的辅助集生成类特定编码,目标定位器则结合类编码和特征进行少样本目标定位学习...生成器的训练使用matching network的meta-learning策略,从基类中采样大量的少样本训练数据子集,模拟测试时的场景undefined  定义单个iFSD任务$T$为在基类上平均采样获得的类标签集...,新类别的meta-testing流程如下: 使用少量的标注样本通过公式3获取class code 通过公式4获取测试图片的特征 通过公式1定位新类别的目标实例 找到heatmap中局部最大位置,通过公式...对于meta-training,从基类随机采样32个任务,每个任务包含3个类别,每个类别包含5个标注的bbox。

    87720

    农林业遥感图像分类研究

    每个特征提取器阶段包括卷积层,其将多个图像滤波器应用于数据,每个图像滤波器搜索特定的图像模式。第一个卷积层的滤波器在输入图像中查找这些特征,从而产生滤波器激活地图或要素图。...这使得网络中的参数数量和计算更易于管理。 在经过多个特征提取阶段之后,原始输入图像阵列被缩减为更小的体积。...这里,重复利用在同一应用程序类别中的巨大样本数据集上预先训练的不同网络的参数。然后,仅重新训练网络的分类层,使得网络能够预测实际训练数据集的类别(相当于在提取的特征之上训练线性分类器)。...由于遥感图像复杂程度高,其多类别的语义分割将是一项具有挑战的任务,为了学习到遥感图像中的复杂地物信息,所设计的网络结构应当具有一定的深度以便提取更高层的语义特征。...在实验中,为了证明本文所提算法的正确性及鲁棒性,将测试图像的预测结果与标签图像进行比较,计算测试样本中各类别的精确度、召回率、F1 分数、平均 F1 分数以及样本的总体精度,如表 3.5 所示,其中本章节所提方法的实验结果用黑体表示

    96120

    不平衡之钥: 重采样法何其多

    在这项工作中[2],作者首先对不平衡识别中的各种采样策略进行了实证研究,采样策略包括实例平衡采样、类别平衡采样、平方根采样和渐进平衡采样,实例平衡采样是每个样本被采样的概率相等,类别平衡采样是每个类别被采样的概率相等...;平方根采样是实例平衡采样的一种变体,其中每个类别的采样概率与相应类别中样本大小的平方根有关;渐进平衡采样在实例平衡采样和类别平衡采样之间进行渐进插值。...具体来说,双层采样策略结合了图像级重采样和实例级重采样,以缓解实例分割中的类别不平衡。...此外,五元组损失中的每个数据批次包含来自不同类别的相同数量的样本,用于类别重平衡。...3.4 BAGS balanced group softmax (BAGS) [14] 提出根据每个类中的样本数量将类划分为几个平衡组,其中每个组具有相似数量的训练数据的类。

    97320

    沈春华团队最新 | SegViT v2对SegViT进行全面升级,让基于ViT的分割模型更轻更强

    主张隶属于特定类别的区域具有与相应类别Token相对应的实质相似性 Value 。 如图2所示,ATM生成了一个有意义的相似性图,该图强调了对“桌子”和“椅子”类别具有强烈亲和力的区域。...在这个高效的ATM模块的基础上,作者还提出了一种新的语义分割范式,该范式利用了普通ViT的成本效益结构,称为SegViT。在这个范例中,多个ATM模块被部署在不同的层,以提取不同规模的分割Mask。...在推理过程中,通过使用 argmax_c\ O_{i,c} ,选择得分最高的类,将标签分配给每个像素 i 。 事实上,像ViT这样的普通基础模型并不固有地具有具有不同规模特征的多个阶段。...除了消除每4个连续Token的2×2最近下采样操作外,本文的方法旨在保留包含多个类别的Token,特别是包含边的Token。...在持续学习中,步骤t的模型应该能够预测历史上的所有类别 C^{1:t} 。 SegViT用于持续学习。现有的连续语义分割方法提出了正则化算法来保存特定架构DeepLabV3的过去知识。

    68950

    从锚点到关键点,最新的目标检测方法发展到哪了

    视觉目标检测即在给定图像中找出属于特定目标类别的对象及其准确位置,并为每个对象实例分配对应的类别标签。...二阶检测器首先使用候选框生成器生成稀疏的候选框集,并从每个候选框中提取特征;然后使用区域分类器预测候选框区域的类别。一阶检测器直接对特征图上每个位置的对象进行类别预测,不经过二阶中的区域分类步骤。...SSD 在多个特征图上预测对象,且每一个特征图基于其感受野来检测特定尺寸的对象。整个网络通过端到端训练机制,使用位置损失和分类损失的加权和作为损失函数进行优化。...当然还有后续结合中心点和角点的 CenterNet,它具有更好的性能。 候选框生成 候选框生成在目标检测框架中起着非常重要的作用。候选框生成器生成一组矩形边界框,它们有可能包含对象。...该网络使用 3 × 3 卷积核在整个特征图上滑动。对于每个位置,网络都考虑 k 个 不同大小和宽高比的锚点(或边界框的初始估计)。这些不同的尺寸和宽高比允许网络匹配图像中不同尺寸的对象。

    92120

    从锚点到关键点,最新的目标检测方法发展到哪了

    视觉目标检测即在给定图像中找出属于特定目标类别的对象及其准确位置,并为每个对象实例分配对应的类别标签。...二阶检测器首先使用候选框生成器生成稀疏的候选框集,并从每个候选框中提取特征;然后使用区域分类器预测候选框区域的类别。一阶检测器直接对特征图上每个位置的对象进行类别预测,不经过二阶中的区域分类步骤。...SSD 在多个特征图上预测对象,且每一个特征图基于其感受野来检测特定尺寸的对象。整个网络通过端到端训练机制,使用位置损失和分类损失的加权和作为损失函数进行优化。...当然还有后续结合中心点和角点的 CenterNet,它具有更好的性能。 候选框生成 候选框生成在目标检测框架中起着非常重要的作用。候选框生成器生成一组矩形边界框,它们有可能包含对象。...该网络使用 3 × 3 卷积核在整个特征图上滑动。对于每个位置,网络都考虑 k 个 不同大小和宽高比的锚点(或边界框的初始估计)。这些不同的尺寸和宽高比允许网络匹配图像中不同尺寸的对象。

    1.1K20

    Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition

    在每个历元中,我们用给定的输入大小训练网络,并为下一个历元切换到另一个输入大小。实验表明,该多尺度训练与传统的单尺度训练收敛相似,并且测试精度较高。SPP的优点与特定的CNN设计是正交的。...当输入图像在不同尺度时,网络(具有相同的滤波器大小)将提取不同尺度的特征。尺度在传统方法中起着重要的作用,例如SIFT向量通常是在多个尺度下提取的(由patch和高斯滤波器的大小决定)。...我们进一步应用该方法从多个尺度中提取多个视图。我们将图像的大小调整为6个scales∈{224,256,300,360,448,560},并为每个scale计算整个图像上的特征映射。...R-CNN首先通过选择性搜索从每张图像中提取大约2000个候选窗口。然后将每个窗口中的图像区域扭曲为固定大小(227×227)。利用预先训练好的深度网络提取每个窗口的特征。...这是因为ZF-5的架构比AlexNet更好,也因为SPPnet的多级池(如果使用no-SPP ZF-5, R-CNN的结果会下降)。表11显示了每个类别的结果。表11还包括其他方法。

    1.9K20

    从锚点到关键点,最新的目标检测方法发展到哪了

    视觉目标检测即在给定图像中找出属于特定目标类别的对象及其准确位置,并为每个对象实例分配对应的类别标签。...二阶检测器首先使用候选框生成器生成稀疏的候选框集,并从每个候选框中提取特征;然后使用区域分类器预测候选框区域的类别。一阶检测器直接对特征图上每个位置的对象进行类别预测,不经过二阶中的区域分类步骤。...SSD 在多个特征图上预测对象,且每一个特征图基于其感受野来检测特定尺寸的对象。整个网络通过端到端训练机制,使用位置损失和分类损失的加权和作为损失函数进行优化。...当然还有后续结合中心点和角点的 CenterNet,它具有更好的性能。 候选框生成 候选框生成在目标检测框架中起着非常重要的作用。候选框生成器生成一组矩形边界框,它们有可能包含对象。...该网络使用 3 × 3 卷积核在整个特征图上滑动。对于每个位置,网络都考虑 k 个 不同大小和宽高比的锚点(或边界框的初始估计)。这些不同的尺寸和宽高比允许网络匹配图像中不同尺寸的对象。

    83150

    极端类别不平衡数据下的分类问题研究综述,终于有人讲全了!

    如, 过多的少数类样本出现在多数类样本密集的区域 [8] 类别之间的分布严重重叠(即不同类别的样本相对密集地出现在特征空间的同一区域)[8] 数据中本身存在的噪声,尤其是少数类的噪声 [9] 少数类分布的稀疏性...它导致分类困难的原因很直观:在同样的特征空间中,相比于只有一个cluster的简单少数类分布,具有多个子概念的少数类分布需要模型给出更复杂的决策边界来获得良好的预测。...根据实现方式的不同,数据级方法可被进一步分类为: 1. 从多数类别中删除样本的方法(欠采样,如RUS、NearMiss[11]、ENN[12]、Tomeklink[13]等) 2....该方式的缺点是需要计算每个数据样本之间的距离,而计算距离需要的计算量随着数据集的大小呈平方级增长,因此在大规模数据集上应用这些方法可能会带来极低的计算效率。 2....可使用迭代过程中的反馈进行动态调整:极少数的集成方法具有了动态重采样的思想,如BalanceCascade会在每轮迭代中丢弃那些已经被当前分类器很好地分类的多数类样本(assumption是这些样本已经不含对模型有贡献的信息

    3.3K71

    极端类别不平衡数据下的分类问题研究综述 | 硬货

    如, 过多的少数类样本出现在多数类样本密集的区域 [8] 类别之间的分布严重重叠(即不同类别的样本相对密集地出现在特征空间的同一区域)[8] 数据中本身存在的噪声,尤其是少数类的噪声 [9] 少数类分布的稀疏性...它导致分类困难的原因很直观:在同样的特征空间中,相比于只有一个cluster的简单少数类分布,具有多个子概念的少数类分布需要模型给出更复杂的决策边界来获得良好的预测。...根据实现方式的不同,数据级方法可被进一步分类为: 1. 从多数类别中删除样本的方法(欠采样,如RUS、NearMiss[11]、ENN[12]、Tomeklink[13]等) 2....该方式的缺点是需要计算每个数据样本之间的距离,而计算距离需要的计算量随着数据集的大小呈平方级增长,因此在大规模数据集上应用这些方法可能会带来极低的计算效率。 2....可使用迭代过程中的反馈进行动态调整:极少数的集成方法具有了动态重采样的思想,如BalanceCascade会在每轮迭代中丢弃那些已经被当前分类器很好地分类的多数类样本(assumption是这些样本已经不含对模型有贡献的信息

    92230

    极端类别不平衡数据下的分类问题研究综述 | 硬货

    如, 过多的少数类样本出现在多数类样本密集的区域 [8] 类别之间的分布严重重叠(即不同类别的样本相对密集地出现在特征空间的同一区域)[8] 数据中本身存在的噪声,尤其是少数类的噪声 [9] 少数类分布的稀疏性...它导致分类困难的原因很直观:在同样的特征空间中,相比于只有一个cluster的简单少数类分布,具有多个子概念的少数类分布需要模型给出更复杂的决策边界来获得良好的预测。...根据实现方式的不同,数据级方法可被进一步分类为: 1. 从多数类别中删除样本的方法(欠采样,如RUS、NearMiss[11]、ENN[12]、Tomeklink[13]等) 2....该方式的缺点是需要计算每个数据样本之间的距离,而计算距离需要的计算量随着数据集的大小呈平方级增长,因此在大规模数据集上应用这些方法可能会带来极低的计算效率。 2....可使用迭代过程中的反馈进行动态调整:极少数的集成方法具有了动态重采样的思想,如BalanceCascade会在每轮迭代中丢弃那些已经被当前分类器很好地分类的多数类样本(assumption是这些样本已经不含对模型有贡献的信息

    82010

    Nice Trick | 不想标注数据了!有伪标签何必呢,Mixup+Mosaic让DINO方法再继续涨点

    因此,作者提出带标记重采样,在标记数据中过采样尾类别。尽管这可能减少头类别样本,但模型可以从 未标注 数据中有效提取头类别伪标签,确保所有类别上的性能。...具体来说,标记重采样结合半监督学习场景,从标记数据中过采样尾部类别,从而显著提高尾部类别的准确性。...检测器从 未标注 数据中挖掘足够的 Head 类别伪标签,以平衡标记数据中 Head 类别的欠采样,从而提高所有类别上的模型性能。该过程如下所述。...200的分辨率表示每个图像的最长边缘将是200。作者首先研究将图像下采样或上采样到固定大小,并发现800在固定大小中实现了最佳AP,而400在最佳AP {}_{s} 中取得了最佳结果。...给定一个预测的边界框,作者将 p 表示为该框的预测概率, p^{*} 表示其对应的特定类别的真实标签。

    1.2K10

    RCNN 学习笔记

    R-CNN检测流程如下: (1)首先输入一张自然图像; (2)使用Selective Search提取大约2000个候选区域(proposal); (3)对每个候选区域的图像进行拉伸形变,使之成为固定大小的正方形图像...使用R-CNN的目标检测 我们的目标检测系统包含三个模块,第一,产生不依赖于特定类别的特征区域,作为一组候选目标;第二,一个庞大的卷积神经网络用来对每个区域选取固定长度的特征向量;第三,一系列特定类别的线性...2.1模型设计 候选区域: R-CNN对特定的候选区域方法来说是不可知的,所以选择selective search方式对每张图提取了约2000个大小不一候选区域。...特定类别的计算是特征与SVM权值及非极大值抑制的点乘,在实验中,所有点乘可以批处理成矩阵乘法,特征矩阵为2000*4096,SVM权值矩阵为4096*N,其中N为类别数量。...特定类别的分类器: 最终对候选框类别的分类,对于每个类别,均训练了一个二分类的SVM,比如对于狗,训练一个SVM来判断一个候选区域是或者不是狗。还是以VOC为例,则训练了20个SVM分类器。

    73040

    MMDetection学习系列(2)——SSD深度探索与实战指南

    在预测时,该网络会对每个默认框中存在的每个物体类别进行评分,并对框进行调整,以更好地匹配物体形状。此外,该网络还结合了来自不同分辨率的多个特征图的预测结果,从而自然地处理各种尺寸的物体。...默认框(Default Boxes)对于每个特征图位置,SSD会生成一系列具有不同宽高比和尺度的默认框。这些默认框会在后续的检测过程中用于预测目标的类别和位置。...分类和回归对于每个默认框,网络会输出两个部分:一个是分类得分(表示该框内包含各个类别的概率),另一个是位置偏移量(用于调整默认框的位置,使其更准确地匹配目标)。...采样的尺寸是原始图片尺寸的[0.1, 1],放缩比介于0.5-1之间,若标注的box的中心在采样部分,则保留其交叠部分。采样过后,每个采样被resize到固定大小,并以0.5的概率水平翻转。...SSD300在ILSVRC2014 DET train和val1上的训练结果达到了43.4 mAP。总结SSD是一种适用于多个类别的快速单次物体检测器。

    10210

    CPRFL:基于CLIP的新方案,破解长尾多标签分类难题 | ACM MM24

    这一进展在很大程度上依赖于许多主流的平衡基准(例如CIFAR、ImageNet ILSVRC、MS COCO),这些基准具有两个关键特征:1)它们提供了在所有类别之间相对平衡且数量充足的样本,2)每个样本仅属于一个类别...然而,在实际应用中,不同类别的分布往往呈现长尾分布模式,深度网络往往在尾部类别上表现不佳。同时,与经典的单标签分类不同,实际场景中图像通常与多个标签相关联,这增加了任务的复杂性和挑战。...由于尾部类别的样本相对稀少,解决长尾多标签图像分类(LTMLC)问题的主流方法主要集中在通过采用各种策略来解决头部与尾部的不平衡问题,例如对每个类别的样本数量进行重采样、为不同类别重新加权损失、以及解耦表示学习和分类头的学习...然而,这种全局视觉表示包含了来自多个对象的混合特征,这阻碍了对每个类别的有效特征分类。因此,如何在长尾数据分布中探索类别之间的语义相关性,并提取局部类别特定特征,仍然是一个重要的研究领域。 ...这个交互过程有助于解耦类别特定的视觉表示,使框架能够辨别与每个类别相关的上下文相关的视觉信息。最后,在类别层面计算类别特定特征与其对应提示之间的相似性,以获得每个类别的预测概率。

    16610

    基于CNN目标检测方法(RCNN,Fast-RCNN,Faster-RCNN,Mask-RCNN,YOLO,SSD)行人检测

    然后这个特征向量被送入一个多类别SVM分类器中,预测出候选区域中所含物体的属于每个类的概率值。每个类别训练一个SVM分类器,从特征向量中推断其属于该类别的概率大小。...R-CNN模型在统一候选区的大小后才能进行特征提取和特征分类。并且提取的候选框会在特征提取的时候会进行重复计算。 ?...使用双线性内插法计算在ROI 块当中固定的四个采样位置得到的输入特征值并对结果进行融合。 因为FCN会精确预测每个像素的类别,就是输入图片中的每个像素都会在标注中对应一个类别。...边界框类别置信度表征的是该边界框中目标属于各个类别的可能性大小以及边界框匹配目标的好坏,一般会根据类别置信度来过滤网络的预测框。 ?...(3)设置先验框 在Yolo中,每个单元预测多个边界框,但是其都是相对这个单元本身(正方块),但是真实目标的形状是多变的,Yolo需要在训练过程中自适应目标的形状。

    2.7K10
    领券