开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

在R中采样具有多个级别的类别，并从每个类别中提取特定的样本大小

在R中，可以使用函数stratified来采样具有多个级别的类别，并从每个类别中提取特定的样本大小。

stratified函数属于rsample包，它提供了一种分层抽样的方法，可以根据不同类别的比例来采样数据。

以下是一个示例代码，演示如何在R中采样具有多个级别的类别，并从每个类别中提取特定的样本大小：

library(rsample)

# 创建一个具有多个级别的类别变量
category <- factor(rep(c("A", "B", "C"), times = c(20, 30, 50)))

# 设置每个类别需要提取的样本大小
sample_sizes <- c(A = 5, B = 10, C = 15)

# 使用stratified函数进行分层抽样
stratified_sampling <- stratified(category, strata = category, size = sample_sizes)

# 查看采样结果
stratified_sampling

在上述示例中，首先创建了一个具有多个级别的类别变量category，其中类别A有20个观测值，类别B有30个观测值，类别C有50个观测值。

然后，通过设置sample_sizes向量来指定每个类别需要提取的样本大小。在本例中，类别A需要提取5个样本，类别B需要提取10个样本，类别C需要提取15个样本。

最后，使用stratified函数进行分层抽样，其中strata参数指定了分层变量，这里使用了同样的category变量。size参数指定了每个类别需要提取的样本大小。

运行代码后，将得到一个采样结果，其中包含了从每个类别中提取的特定样本大小的数据集。

请注意，以上示例中使用的是rsample包中的stratified函数，这是一种常见的方法，但并不是唯一的方法。在实际应用中，还可以根据具体需求使用其他采样方法或包。

相关搜索:Pandas:如何从dataframe的特定列中获取每个类别的样本行，并保存到单个csv中？在R中按组使用具有特定样本大小的列表，并将其应用于数据集有没有办法在具有聚合函数的表中仅显示每个国家/地区类别的最高值获取来自特定类别的新闻，以及每个新闻作者在laravel中的新闻 linux ibm mq日志 linux wget连接超时什么是linux设备文件类型 linux下安装darwin module linux登录 linux c 判断目录权限

相关搜索:

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

不平衡问题: 深度神经网络训练之殇

具体来说，实例平衡采样是每个样本被采样的概率相等，而类别平衡采样是每个类别被采样的概率相等；平方根采样是实例平衡采样的一种变体，其中每个类别的采样概率与相应类别中样本大小的平方根有关；渐进平衡采样在实例平衡采样和类别平衡采样之间进行渐进插值...此外，五元组损失中的每个数据批次包含来自不同类别的相同数量的样本，用于类别重平衡。...，通过调整训练期间不同类别的损失值来对类别进行重新平衡，近期的研究提出了各种代价敏感学习方法来处理类别不平衡问题，包括类别级重加权和类别级re-margining。...[11]全面分析了不平衡任务中的logit调整方法，并从理论上表明logit调整是费雪一致 (Fisher consistent, 即当损失函数降到最小时，识别错误率也会最小)的，可以以最小化每个类别的平均错误...在该聚类树中，原始节点中的模型在ImageNet-1K上进行预训练；每个子节点中的模型继承其父节点的模型参数，然后基于簇节点中的样本进行微调。

1.5K3 0

SSD: Single Shot MultiBox Detector

在我们的方法中，相对于在MultiBox和YOLO中所做的整个feature map，我们通过feature map中每个位置的底层1×1 feature来预测每个先验的多个类别的偏移调整和置信度。...4.1.2、SSD和Baseline检测器的比较SSD与MultiBox具有相似的目标，但它具有在单阶段评价中检测多个类别的能力，而不是使用两阶段法。表1显示了随着类别数量的增加，SSD性能如何变化。...表2显示，Fast R-CNN和Faster R-CNN的性能略优于SSD，这可能是因为它们具有较大的输入图像大小。然而，Faster R-CNN要慢得多，因为它仍然需要提取proposal步骤。...其中一个原因是针对多个类别的多个feature map的所有位置都有很多检测。可以只更新所有的正样本和一小部分负样本(难负)来减少训练时间。...目前SSD使用单一网络来预测多个类别的偏移量和置信度，这可能很难学习。在未来，我们希望使用两个独立的塔来进行定位和分类，这样每个塔对于特定的子任务都可以更轻的重量，从而解耦问题的复杂性，提高训练速度。

1.9K1 0

目标检测领域中的数据不均衡问题综述

这个问题是物体在本质上具有不同维度这一事实的自然结果。规模也可能导致特征级别的不平衡（通常在“特征提取”阶段处理），不同抽象层（即高级别和低级别）的贡献不平衡。...当有多个目标（损失函数）要最小化时（每个目标用于特定任务，例如分类和框回归），就会出现目标不平衡。...硬采样的思路：设置指定数量或者比例的正负样本（RCNN系列）。软采样的思路：软抽样通过对训练过程的相对重要性来调整每个样本的贡献（设定样本损失权重）。...无采样方式：设立新的分支，根据前面的样本，预测后面样本的权重。生成方法：主要基于GAN。 2、前景前景不均衡主要集中在数据集上的类别不均衡，和每个bacth内的类别不均衡。...基于batch内的类别不均衡：可以使用在线前景均衡（OFB）抽样，通过给每个要抽样的bounding box分配概率，可以在批处理级别上缓解前景类不平衡问题，从而使批处理中不同类的分布是均匀的。

1K2 0

AAAI 2023 Oral | 回归元学习，基于变分特征聚合的少样本目标检测实现新SOTA

基于 CAA，本文又提出了 VFA，其采用变分编码器（VAEs）将 Support 样本编码为类的分布，并从学习到的分布中采样新的 Support 特征进行特征融合。...VFA 在多个 FSOD 数据集上表现优于目前最好的模型，相关研究已经被 AAAI 2023 录用为 Oral。...在本文中，我们首先将 Support 特征转换为类别的分布。由于估计出的类别分布不偏向于特定样本，因此从分布中采样的特征对样本的方差有较好的鲁棒性。VFA 的框架如上图二所示。 a）变分特征学习。...由于 Support 特征被转换为类别的分布，我们可以从分布中采样特征并与 Query 特征聚合。具体来说，VFA 同样采用类别无关聚合 CAA，但将 Query 特征与变分特征聚合在一起。...但是分类任务需要平移不变特征，而回归需要平移协变的特征。由于 Support 特征表示的是类别的中心，具有平移不变性，因此聚合后特征会损害回归任务。本文提出一种简单的分类 - 回归任务解耦。

5321 0

不平衡之钥: 重采样法何其多

在这项工作中[2]，作者首先对不平衡识别中的各种采样策略进行了实证研究，采样策略包括实例平衡采样、类别平衡采样、平方根采样和渐进平衡采样，实例平衡采样是每个样本被采样的概率相等，类别平衡采样是每个类别被采样的概率相等...；平方根采样是实例平衡采样的一种变体，其中每个类别的采样概率与相应类别中样本大小的平方根有关；渐进平衡采样在实例平衡采样和类别平衡采样之间进行渐进插值。...具体来说，双层采样策略结合了图像级重采样和实例级重采样，以缓解实例分割中的类别不平衡。...此外，五元组损失中的每个数据批次包含来自不同类别的相同数量的样本，用于类别重平衡。...3.4 BAGS balanced group softmax (BAGS) [14] 提出根据每个类中的样本数量将类划分为几个平衡组，其中每个组具有相似数量的训练数据的类。

8632 0

农林业遥感图像分类研究

每个特征提取器阶段包括卷积层，其将多个图像滤波器应用于数据，每个图像滤波器搜索特定的图像模式。第一个卷积层的滤波器在输入图像中查找这些特征，从而产生滤波器激活地图或要素图。...这使得网络中的参数数量和计算更易于管理。在经过多个特征提取阶段之后，原始输入图像阵列被缩减为更小的体积。...这里，重复利用在同一应用程序类别中的巨大样本数据集上预先训练的不同网络的参数。然后，仅重新训练网络的分类层，使得网络能够预测实际训练数据集的类别（相当于在提取的特征之上训练线性分类器）。...由于遥感图像复杂程度高，其多类别的语义分割将是一项具有挑战的任务，为了学习到遥感图像中的复杂地物信息，所设计的网络结构应当具有一定的深度以便提取更高层的语义特征。...在实验中，为了证明本文所提算法的正确性及鲁棒性，将测试图像的预测结果与标签图像进行比较，计算测试样本中各类别的精确度、召回率、F1 分数、平均 F1 分数以及样本的总体精度，如表 3.5 所示，其中本章节所提方法的实验结果用黑体表示

8312 0

增量学习不只有finetune，三星AI提出增量式少样本目标检测算法ONCE | CVPR 2020

iFSD(Incremental Few-Shot Detection)，场景设置如下：检测模型可以在包含充足样本的基础类别上进行训练训练好后，iFSD能够应用到真实世界中，任何新类别在任何时候都能通过少量标注样本进行注册...第一阶段训练类不可知的特征提取器，第二阶段固定特征提取器，联合训练目标定位器和meta-network，meta-network根据给定的辅助集生成类特定编码，目标定位器则结合类编码和特征进行少样本目标定位学习...生成器的训练使用matching network的meta-learning策略，从基类中采样大量的少样本训练数据子集，模拟测试时的场景undefined 定义单个iFSD任务$T$为在基类上平均采样获得的类标签集...，新类别的meta-testing流程如下：使用少量的标注样本通过公式3获取class code 通过公式4获取测试图片的特征通过公式1定位新类别的目标实例找到heatmap中局部最大位置，通过公式...对于meta-training，从基类随机采样32个任务，每个任务包含3个类别，每个类别包含5个标注的bbox。

8272 0

沈春华团队最新 | SegViT v2对SegViT进行全面升级，让基于ViT的分割模型更轻更强

主张隶属于特定类别的区域具有与相应类别Token相对应的实质相似性 Value 。如图2所示，ATM生成了一个有意义的相似性图，该图强调了对“桌子”和“椅子”类别具有强烈亲和力的区域。...在这个高效的ATM模块的基础上，作者还提出了一种新的语义分割范式，该范式利用了普通ViT的成本效益结构，称为SegViT。在这个范例中，多个ATM模块被部署在不同的层，以提取不同规模的分割Mask。...在推理过程中，通过使用 argmax_c\ O_{i,c} ，选择得分最高的类，将标签分配给每个像素 i 。事实上，像ViT这样的普通基础模型并不固有地具有具有不同规模特征的多个阶段。...除了消除每4个连续Token的2×2最近下采样操作外，本文的方法旨在保留包含多个类别的Token，特别是包含边的Token。...在持续学习中，步骤t的模型应该能够预测历史上的所有类别 C^{1:t} 。 SegViT用于持续学习。现有的连续语义分割方法提出了正则化算法来保存特定架构DeepLabV3的过去知识。

4315 0

从锚点到关键点，最新的目标检测方法发展到哪了

视觉目标检测即在给定图像中找出属于特定目标类别的对象及其准确位置，并为每个对象实例分配对应的类别标签。...二阶检测器首先使用候选框生成器生成稀疏的候选框集，并从每个候选框中提取特征；然后使用区域分类器预测候选框区域的类别。一阶检测器直接对特征图上每个位置的对象进行类别预测，不经过二阶中的区域分类步骤。...SSD 在多个特征图上预测对象，且每一个特征图基于其感受野来检测特定尺寸的对象。整个网络通过端到端训练机制，使用位置损失和分类损失的加权和作为损失函数进行优化。...当然还有后续结合中心点和角点的 CenterNet，它具有更好的性能。候选框生成候选框生成在目标检测框架中起着非常重要的作用。候选框生成器生成一组矩形边界框，它们有可能包含对象。...该网络使用 3 × 3 卷积核在整个特征图上滑动。对于每个位置，网络都考虑 k 个不同大小和宽高比的锚点（或边界框的初始估计）。这些不同的尺寸和宽高比允许网络匹配图像中不同尺寸的对象。

1K2 0

从锚点到关键点，最新的目标检测方法发展到哪了

视觉目标检测即在给定图像中找出属于特定目标类别的对象及其准确位置，并为每个对象实例分配对应的类别标签。...二阶检测器首先使用候选框生成器生成稀疏的候选框集，并从每个候选框中提取特征；然后使用区域分类器预测候选框区域的类别。一阶检测器直接对特征图上每个位置的对象进行类别预测，不经过二阶中的区域分类步骤。...SSD 在多个特征图上预测对象，且每一个特征图基于其感受野来检测特定尺寸的对象。整个网络通过端到端训练机制，使用位置损失和分类损失的加权和作为损失函数进行优化。...当然还有后续结合中心点和角点的 CenterNet，它具有更好的性能。候选框生成候选框生成在目标检测框架中起着非常重要的作用。候选框生成器生成一组矩形边界框，它们有可能包含对象。...该网络使用 3 × 3 卷积核在整个特征图上滑动。对于每个位置，网络都考虑 k 个不同大小和宽高比的锚点（或边界框的初始估计）。这些不同的尺寸和宽高比允许网络匹配图像中不同尺寸的对象。

8652 0

极端类别不平衡数据下的分类问题研究综述，终于有人讲全了！

如，过多的少数类样本出现在多数类样本密集的区域 [8] 类别之间的分布严重重叠（即不同类别的样本相对密集地出现在特征空间的同一区域）[8] 数据中本身存在的噪声，尤其是少数类的噪声 [9] 少数类分布的稀疏性...它导致分类困难的原因很直观：在同样的特征空间中，相比于只有一个cluster的简单少数类分布，具有多个子概念的少数类分布需要模型给出更复杂的决策边界来获得良好的预测。...根据实现方式的不同，数据级方法可被进一步分类为： 1. 从多数类别中删除样本的方法（欠采样，如RUS、NearMiss[11]、ENN[12]、Tomeklink[13]等） 2....该方式的缺点是需要计算每个数据样本之间的距离，而计算距离需要的计算量随着数据集的大小呈平方级增长，因此在大规模数据集上应用这些方法可能会带来极低的计算效率。 2....可使用迭代过程中的反馈进行动态调整：极少数的集成方法具有了动态重采样的思想，如BalanceCascade会在每轮迭代中丢弃那些已经被当前分类器很好地分类的多数类样本（assumption是这些样本已经不含对模型有贡献的信息

3K7 1

从锚点到关键点，最新的目标检测方法发展到哪了

视觉目标检测即在给定图像中找出属于特定目标类别的对象及其准确位置，并为每个对象实例分配对应的类别标签。...二阶检测器首先使用候选框生成器生成稀疏的候选框集，并从每个候选框中提取特征；然后使用区域分类器预测候选框区域的类别。一阶检测器直接对特征图上每个位置的对象进行类别预测，不经过二阶中的区域分类步骤。...SSD 在多个特征图上预测对象，且每一个特征图基于其感受野来检测特定尺寸的对象。整个网络通过端到端训练机制，使用位置损失和分类损失的加权和作为损失函数进行优化。...当然还有后续结合中心点和角点的 CenterNet，它具有更好的性能。候选框生成候选框生成在目标检测框架中起着非常重要的作用。候选框生成器生成一组矩形边界框，它们有可能包含对象。...该网络使用 3 × 3 卷积核在整个特征图上滑动。对于每个位置，网络都考虑 k 个不同大小和宽高比的锚点（或边界框的初始估计）。这些不同的尺寸和宽高比允许网络匹配图像中不同尺寸的对象。

7455 0

Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition

在每个历元中，我们用给定的输入大小训练网络，并为下一个历元切换到另一个输入大小。实验表明，该多尺度训练与传统的单尺度训练收敛相似，并且测试精度较高。SPP的优点与特定的CNN设计是正交的。...当输入图像在不同尺度时，网络(具有相同的滤波器大小)将提取不同尺度的特征。尺度在传统方法中起着重要的作用，例如SIFT向量通常是在多个尺度下提取的(由patch和高斯滤波器的大小决定)。...我们进一步应用该方法从多个尺度中提取多个视图。我们将图像的大小调整为6个scales∈{224,256,300,360,448,560}，并为每个scale计算整个图像上的特征映射。...R-CNN首先通过选择性搜索从每张图像中提取大约2000个候选窗口。然后将每个窗口中的图像区域扭曲为固定大小(227×227)。利用预先训练好的深度网络提取每个窗口的特征。...这是因为ZF-5的架构比AlexNet更好，也因为SPPnet的多级池(如果使用no-SPP ZF-5, R-CNN的结果会下降)。表11显示了每个类别的结果。表11还包括其他方法。

1.8K2 0

极端类别不平衡数据下的分类问题研究综述 | 硬货

如，过多的少数类样本出现在多数类样本密集的区域 [8] 类别之间的分布严重重叠（即不同类别的样本相对密集地出现在特征空间的同一区域）[8] 数据中本身存在的噪声，尤其是少数类的噪声 [9] 少数类分布的稀疏性...它导致分类困难的原因很直观：在同样的特征空间中，相比于只有一个cluster的简单少数类分布，具有多个子概念的少数类分布需要模型给出更复杂的决策边界来获得良好的预测。...根据实现方式的不同，数据级方法可被进一步分类为： 1. 从多数类别中删除样本的方法（欠采样，如RUS、NearMiss[11]、ENN[12]、Tomeklink[13]等） 2....该方式的缺点是需要计算每个数据样本之间的距离，而计算距离需要的计算量随着数据集的大小呈平方级增长，因此在大规模数据集上应用这些方法可能会带来极低的计算效率。 2....可使用迭代过程中的反馈进行动态调整：极少数的集成方法具有了动态重采样的思想，如BalanceCascade会在每轮迭代中丢弃那些已经被当前分类器很好地分类的多数类样本（assumption是这些样本已经不含对模型有贡献的信息

8723 0

极端类别不平衡数据下的分类问题研究综述 | 硬货

如，过多的少数类样本出现在多数类样本密集的区域 [8] 类别之间的分布严重重叠（即不同类别的样本相对密集地出现在特征空间的同一区域）[8] 数据中本身存在的噪声，尤其是少数类的噪声 [9] 少数类分布的稀疏性...它导致分类困难的原因很直观：在同样的特征空间中，相比于只有一个cluster的简单少数类分布，具有多个子概念的少数类分布需要模型给出更复杂的决策边界来获得良好的预测。...根据实现方式的不同，数据级方法可被进一步分类为： 1. 从多数类别中删除样本的方法（欠采样，如RUS、NearMiss[11]、ENN[12]、Tomeklink[13]等） 2....该方式的缺点是需要计算每个数据样本之间的距离，而计算距离需要的计算量随着数据集的大小呈平方级增长，因此在大规模数据集上应用这些方法可能会带来极低的计算效率。 2....可使用迭代过程中的反馈进行动态调整：极少数的集成方法具有了动态重采样的思想，如BalanceCascade会在每轮迭代中丢弃那些已经被当前分类器很好地分类的多数类样本（assumption是这些样本已经不含对模型有贡献的信息

7801 0

Nice Trick | 不想标注数据了！有伪标签何必呢，Mixup+Mosaic让DINO方法再继续涨点

因此，作者提出带标记重采样，在标记数据中过采样尾类别。尽管这可能减少头类别样本，但模型可以从未标注数据中有效提取头类别伪标签，确保所有类别上的性能。...具体来说，标记重采样结合半监督学习场景，从标记数据中过采样尾部类别，从而显著提高尾部类别的准确性。...检测器从未标注数据中挖掘足够的 Head 类别伪标签，以平衡标记数据中 Head 类别的欠采样，从而提高所有类别上的模型性能。该过程如下所述。...200的分辨率表示每个图像的最长边缘将是200。作者首先研究将图像下采样或上采样到固定大小，并发现800在固定大小中实现了最佳AP，而400在最佳AP {}_{s} 中取得了最佳结果。...给定一个预测的边界框，作者将 p 表示为该框的预测概率， p^{*} 表示其对应的特定类别的真实标签。

7131 0

RCNN 学习笔记

R-CNN检测流程如下：（1）首先输入一张自然图像; （2）使用Selective Search提取大约2000个候选区域（proposal）; （3）对每个候选区域的图像进行拉伸形变，使之成为固定大小的正方形图像...使用R-CNN的目标检测我们的目标检测系统包含三个模块，第一，产生不依赖于特定类别的特征区域，作为一组候选目标；第二，一个庞大的卷积神经网络用来对每个区域选取固定长度的特征向量；第三，一系列特定类别的线性...2.1模型设计候选区域： R-CNN对特定的候选区域方法来说是不可知的，所以选择selective search方式对每张图提取了约2000个大小不一候选区域。...特定类别的计算是特征与SVM权值及非极大值抑制的点乘，在实验中，所有点乘可以批处理成矩阵乘法，特征矩阵为2000*4096，SVM权值矩阵为4096*N，其中N为类别数量。...特定类别的分类器：最终对候选框类别的分类，对于每个类别，均训练了一个二分类的SVM，比如对于狗，训练一个SVM来判断一个候选区域是或者不是狗。还是以VOC为例，则训练了20个SVM分类器。

7074 0

基于CNN目标检测方法（RCNN，Fast-RCNN，Faster-RCNN，Mask-RCNN，YOLO，SSD）行人检测

然后这个特征向量被送入一个多类别SVM分类器中，预测出候选区域中所含物体的属于每个类的概率值。每个类别训练一个SVM分类器，从特征向量中推断其属于该类别的概率大小。...R-CNN模型在统一候选区的大小后才能进行特征提取和特征分类。并且提取的候选框会在特征提取的时候会进行重复计算。 ?...使用双线性内插法计算在ROI 块当中固定的四个采样位置得到的输入特征值并对结果进行融合。因为FCN会精确预测每个像素的类别，就是输入图片中的每个像素都会在标注中对应一个类别。...边界框类别置信度表征的是该边界框中目标属于各个类别的可能性大小以及边界框匹配目标的好坏，一般会根据类别置信度来过滤网络的预测框。 ?...（3）设置先验框在Yolo中，每个单元预测多个边界框，但是其都是相对这个单元本身（正方块），但是真实目标的形状是多变的，Yolo需要在训练过程中自适应目标的形状。

1.6K1 0

FASA: Feature Augmentation and Sampling Adaptationfor Long-Tailed Instance Segmentation

然而，类分组过程依赖于静态启发式，如类大小或语义，这不是最优的。唐等人研究了长尾设置中的样本共存效应，并提出了去混杂训练。Seesaw损失动态地重新平衡正样本和负样本的梯度，尤其是对于罕见类别。...（FS），动态调整每个类别的虚拟特征的采样概率。 ...此外，分组更新的噪声较小，因为它是基于（来自多个类别的）较大数据上计算的损失平均值。 ...至于Chu等人[6]，性能受到实例分割任务的小批量大小的限制，这不能保证选择最令人困惑的样本。[6]和[44]都应用从头类到尾类的特征转移。他们使用两阶段的训练管道，需要预先训练的模型来提取特征。...5） Seesaw损失平衡了不同类别的正样本和负样本的累积梯度比率。使用Mask R-CNN基线的比较：当与Mask R-CNN基线相结合时，上述方法显示出了坚实的改进。

2321 0

UADA3D 突破激光雷达难题 | 引领无监督域自适应新趋势，助力点云三维目标检测突破！

重要的是，这种方法特别适用于具有较大领域偏移的应用，如多个目标类别、不同的操作环境和稀疏的激光雷达数据。...He和Zhang[11]在不同卷积层上使用多个GRL进行全局适应。Xu等人[55]在图像级和实例级领域分类之间引入了类别正则化，使用基于欧氏距离的正则化损失。...接下来，对每个样本提取特征，并将其输入到检测Head中，预测3D边界框（算法1中的第3-4行）。仅对源域中的标记样本计算目标检测损失（在补充材料中描述，算法1中的第6-7行）。...基于0.A中展示的实验，Centerpoint选择了3的核大小。注意，作者进行的是类别的域预测，因此作者有 K 个判别器，对应于类别数量（在作者的案例中 K=3 ，但可以轻松修改）。...因此，作者可以看出作者的方法在不同类别之间具有更好的泛化能力。 Bi3D: Bi3D (CVPR '23) [64] 是一种仅关注汽车类别的半监督学习方法。

3161 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭