开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

数据增强——mixup

数据增强是一种在机器学习和深度学习领域中常用的技术，用于生成更多的训练数据。其中，Mixup是一种常用的数据增强技术，它将两个不同的样本进行混合，生成一个新的样本，以增加训练数据的多样性。

具体来说，Mixup技术将两个不同的样本x和y混合在一起，生成一个新的样本z，即z = x + y。这个新的样本z可以用于训练深度学习模型，以提高模型的泛化能力。

在腾讯云中，可以使用云安全中心（CSS）进行自动化的数据增强，以保护用户的数据安全。此外，腾讯云还提供了各种数据增强工具，如AutoAugment和Augmentor等，可以帮助用户快速、高效地生成更多的训练数据。

总的来说，数据增强是机器学习和深度学习领域中常用的一种技术，可以用于生成更多的训练数据，提高模型的泛化能力。在腾讯云中，可以使用云安全中心（CSS）进行自动化的数据增强，并提供了各种数据增强工具，可以帮助用户快速、高效地生成更多的训练数据。

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

莱斯大学胡侠团队 ICML 2022 杰出论文: 新型图数据增强方法 G-Mixup｜附作者对话

作者｜李梅编辑｜陈彩娴近日，备受关注的第十九届机器学习国际会议（ICML 2022）在美国马里兰州巴尔的摩市举办。自新冠疫情以来，大会首次恢复线下形式，采取线上线下结合的方式举办。 1 ICML2022概况本届大会共收到5630 篇投稿，其中，1117 篇被接收为short oral，118篇被接收为long oral。接收率为21.94%，与以往几年基本持平。前几日，本届大会的全部奖项公布，共评选出15 篇杰出论文奖和 1 项时间检验奖。其中，复旦大学、上海交通大学、厦门大学、莱斯大学等多个华人团队

01

SEMI-SUPERVISED OBJECT DETECTION FRAMEWORK WITH OBJECT FIRST MIXUPFOR REMOTE SENSING IMAGES

本文提出了一个用于遥感图像的简单半监督目标检测框架，该框架被命名为SSOD-RS。SSOD-RS包含两个部分，即改进的自我训练和基于强数据增强的一致性正则化，以及改进的混合。首先，作为一种增强算法，提出了Object First mixup（OF-mixup）来调整物体和背景的权重，扩大了训练样本的分布，同时减少了遥感复杂背景对物体特征的干扰。其次，在自训练中引入了集合损失和微调的训练策略，使模型在学习了伪标签的特征后，适应真实标签的特征分布。实验结果表明，利用无标签图像的SSOD-RS可以极大地提高模型的准确性。

01

浙大发布「数据混合增强」框架AutoMix，还顺手开源了众多mixup算法

---- 新智元报道编辑：好困 LRS 【新智元导读】浙江大学联手西湖大学发布全新数据混合策略AutoMix，具有更高的准确率和更低的计算需求，一同发布的还有一个all-in-one的数据混合仓库！数据增强一直是图像领域的基本操作，能够在数据量不变的情况下，增强神经网络的泛化性能，尤其是对Transformer等大参数量的模型来说，数据量不够很容易导致欠拟合。数据混合增强（data mixing augmentation）技术是一种新兴的增强方法，比如说需要对狗和猫的图像进行分类，图像混合

02

【YOLOv5】数据增强Mosaic，把Mosaic3变成Mosaic9

Mosaic数据增强,将图片进行随机裁剪，缩放后排列接成一张图片，实现丰富数据集，增加小样本目标，提升网络的训练速度。

01

一张图的一百种 “活” 法 | MMClassification 数据增强介绍第二弹

既然数据增强手段能够提高模型的泛化能力，那么我们自然希望通过一系列数据增强的组合获得最优的泛化效果，从而衍生出了一系列组合增强手段，这里我们介绍其中最著名也最常用的两个手段，AutoAugment 和 RandAugment。

01

NLP 中的通用数据增强方法及针对 NER 的变种

本文结合 A Visual Survey of Data Augmentation in NLP 和最新的综述论文 A Survey of Data Augmentation Approaches for NLP，大致总结了目前 NLP 领域的通用数据增强方法和几种针对如 NER 的序列标注模型进行适配的变种方法，关于后者，重点介绍了基于 mixup 改进的 SeqMix 方法。

03

MixMatch论文学习笔记

作者整合了目前主流的半监督学习算法，然后提出了新的MixMatch算法，该算法对经过数据增强的无标签样本进行低熵标签的猜测，并使用MixUp将有标签数据和无标签数据混合在一起。算法在许多数据集上获得了SOTA的结果。

02

ECCV 2022 | MixSKD: 用于图像识别的Mixup自蒸馏方法

来源：PaperWeekly 本文约1800字，建议阅读5分钟本篇文章介绍一下我们于 ECCV-2022 发表的一篇模型自蒸馏文章。传统的知识蒸馏（Knowledge Distillation，KD）需要一个预训练的教师模型来训练一个学生模型，这种模式的缺点是需要设计并训练额外的教师网络，并且两阶段的训练过程提升了流水线开销。自网络知识蒸馏（Self-Knowledge Distillation，Self-KD），顾名思义，则是不依赖额外的教师网络进行指导，利用网络自身的知识来指导自身的学习，从而实现自

02

一种巧妙且简单的数据增强方法 - MixUp 小综述

Mixup 是⼀种简单且有效的数据增强⽅法，⾃2018年MIT和facebook提出之后，⽆论在业界还是在学术界都有了很强的地位，成为⼤家的⼀种标配。下⾯就从开⼭之作逐步简单的介绍下如何在NLP领域使⽤的吧。

03

小样本利器5. 半监督集各家所长：MixMatch，MixText，UDA，FixMatch

在前面的几个章节中，我们介绍了几种基于不同半监督假设的模型优化方案，包括Mean Teacher等一致性正则约束，FGM等对抗训练，min Entropy等最小熵原则，以及Mixup等增强方案。虽然出发点不同但上述优化方案都从不同的方向服务于半监督的3个假设，让我们重新回顾下(哈哈自己抄袭自己)：

02

卷积神经网络长尾数据集识别的技巧包

对长尾数据集的tricks进行了分析和探索，并结合一种新的数据增强方法和两阶段的训练策略，取得了非常好的效果。

03

模型优化4. 正则化+数据增强 Mixup Family代码实现

前三章我们陆续介绍了半监督和对抗训练的方案来提高模型在样本外的泛化能力，这一章我们介绍一种嵌入模型的数据增强方案。之前没太重视这种方案，实在是方法过于朴实。。。不过在最近用的几个数据集上mixup的表现都比较哇塞，所以我们再来聊聊~

02

ICLR 2022 | 减少跨语言表示差异，字节跳动AI Lab通过流形混合增强跨语言迁移

机器之心发布字节跳动人工智能实验室、加利福尼亚大学圣塔芭芭拉分校字节跳动人工智能实验室和加利福尼亚大学圣塔芭芭拉分校的研究者提出了跨语言流形混合（X-Mixup）方法为目标语言提供 “折衷” 的表示，让模型自适应地校准表示差异。此方法不仅显著地减少了跨语言表示差异，同时有效地提升了跨语言迁移的效果。基于多语言预训练语言模型（比如 mBert、XLM-R 等），各种跨语言迁移学习方法取得了不错的迁移效果，但其中许多目标语言的性能仍然远远落后于源语言。字节跳动人工智能实验室和加利福尼亚大学圣塔芭芭拉分校通

01

[综述类] 一文道尽深度学习中的数据增强方法（上）

在深度学习项目中，寻找数据花费了相当多的时间。但在很多实际的项目中，我们难以找到充足的数据来完成任务。

02

【科普】半监督学习的概述与思考，及其在联邦学习场景下的应用

在现实世界中，数据往往存在各种各样的问题，例如：图片分类模型对标注数据的依赖性很强、标注图片数据难以获取、大量未标注数据存在、针对某个场景的数据量过小…等等问题。

03

Nice Trick | 不想标注数据了！有伪标签何必呢，Mixup+Mosaic让DINO方法再继续涨点

在深度学习时代，目标检测取得了显著的进展，但高度依赖昂贵的人工标注。因此，半监督学习越来越受到研究兴趣的青睐，它利用未标注数据来提高检测器性能，而不只是依赖标注。

01

数据增强英文_数据加噪处理

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至举报，一经查实，本站将立刻删除。

02

小样本学习及其在美团场景中的应用

美团的各个业务有着丰富的NLP场景，而这些场景中模型的构建需要很多的标注资源，成本很高。小样本学习致力于在数据资源稀少的情况下训练出比较好的模型。本文从主动学习、数据增强、半监督学习、领域迁移、集成学习&自训练几个方向介绍了现有的一些方法，并在美团场景进行了实验，效果上也取得了一定的提升。希望能对从事相关研究的同学有所帮助或者启发。

02

StarLKNet | 利用大核卷积和 Mixup 增强的深度学习架构提升识别准确性！

在现代社会，个人信息安全问题越来越受到关注，因为误识别可能对个人的财产安全和隐私造成灾难性的影响。基于密码和身份证等 Token 的认证方法存在被遗忘或被盗的风险。在过去的几十年里，基于生理（如面部[18]，指纹[2]和静脉[38, 39]）或行为（如步态[3]和眼动[30]）特征的个体识别的生物识别技术研究非常广泛。在应用中最常见的生物识别特征是面部和指纹。然而，这些外部特征可能受到潜在的伪造攻击[23]。

01

【论文笔记】文本版的Mixup数据增强算法：SSMix

论文标题：SSMix: Saliency-Based Span Mixup for Text Classification

02

数据增强策略（一）

一个强大的数据增强仓库 https://github.com/aleju/imgaug

03

【CNN调参】目标检测算法优化技巧

目标检测模型相比于分类模型的研究相比，更缺少普遍性，并且网络结构和优化目标更加复杂。

03

想读懂YOLOV4，你需要先了解下列技术(一)

yolov4论文：YOLOv4: Optimal Speed and Accuracy of Object Detection arxiv：https://arxiv.org/abs/2004.10934 github源码：https://github.com/AlexeyAB/darknet

05

全新数据增强 | TransMix 超越Mix-up、Cut-mix方法让模型更加鲁棒、精度更高

Transformer在自然语言处理的几乎所有任务中占据主导地位。近年来，基于Transformer的架构如Vision Transformer(ViT)被引入到计算机视觉领域，并在图像分类、目标检测和图像分割等任务中显示出巨大的前景。

02

美团获得小样本学习榜单FewCLUE第一！Prompt Learning+自训练实战

总第515篇 2022年第032篇近日，美团搜索与NLP部NLP中心语义理解团队的小样本学习模型FSL++在中文小样本语言理解权威评测基准FewCLUE榜单登顶，在自然语言推理（OCNLI）单任务中取得第一，并在极少数样本（一个类别仅100余个）的条件下，在新闻分类(TNEWS)、科学文献学科分类（CSLDCP）任务上超过了人类识别精确度。 1 概述 2 方法介绍 2.1 增强预训练 2.2 模型结构 2.3 数据增强 2.4 集成学习&自训练 3 实验结果 3.1 数据集介绍 3.2 实验对比 4

02

【AlexeyAB DarkNet框架解析】三，加载数据进行训练

昨天讲了DarkNet的底层数据结构，并且将网络配置文件进行了解析存放到了一个network结构体中，那么今天我们就要来看一下Darknet是如何加载数据进行训练的。

02

NAACL2022 | 具有元重加权的鲁棒自增强命名实体识别技术

每天给你送来NLP技术干货！ ---- ©作者 | 回亭风单位 | 北京邮电大学研究方向 | 自然语言理解编辑 | PaperWeekly 自增强（self-augmentation）最近在提升低资源场景下的 NER 问题中得到了越来越多的关注，token 替换和表征混合是对于 NER 这类 token 级别的任务很有效的两种自增强方法。值得注意的是，自增强的方法得到的增强数据有潜在的噪声，先前的研究是对于特定的自增强方法设计特定的基于规则的约束来降低噪声。本文提出了一个联合的 meta-rewe

01

BIB | MDF-SA-DDI:基于多源药物、特征融合预测药物相互作用事件

今天给大家介绍的上海交通大学魏冬青团队发表在Brefings in Bioinformatics上的文章《MDF-SA-DDI: predicting drug–drug interaction events based on multi-source drug fusion, multi-source feature fusion and transformer self-attention mechanism》。联合使用多种药物的主要问题之一是，可能会引起药物的不良相互作用和副作用，损害身体。因此，预测潜在的药物相互作用非常重要。然而，现有的预测方法大多只能预测两种药物是否相互作用，能预测两种药物相互作用事件的方法很少。准确预测两种药物的相互作用事件对研究人员研究两种药物的相互作用机制更有帮助。本文提出了一种药物-药物相互作用(DDI)事件预测方法——MDF-SA-DDI。MDF-SA-DDI主要由多源药物融合和多源特征融合两部分组成。首先,利用四种不同的药物融合网络(孪生网络、卷积神经网络和两个不同的自编码器)来获得药物的四种不同的潜在特征向量对。然后，使用自注意力机制模块进行隐特征融合。论文在两个数据集上对三个不同的任务进行了实验，并对五种DDI事件类型进行了案例研究，实验结果证明了模型的有效性。

03

一篇就够！数据增强方法综述

数据增强(Data Augmentation, DA)缓解了深度学习中数据不足的场景，在图像领域首先得到广泛使用，进而延伸到 NLP 领域，并在许多任务上取得效果。一个主要的方向是增加训练数据的多样性，从而提高模型泛化能力。

02

【数据增强】开源 | 从数据扩充中学习表示的一致性提高模型泛化能力

论文地址： http://arxiv.org/pdf/2110.10536v1.pdf

01

大佬养成 | 聆听 YOLOX 复现社区贡献者故事

前段时间我们支持了 YOLOX，在复现中多亏了 5 位社区用户的积极参与，使其有望在短时间发布，在此再次表示感谢！

03

中文NER的那些事儿4. 数据增强在NER的尝试

这一章我们不聊模型来聊聊数据，解决实际问题时90%的时间其实都是在和数据作斗争，于是无标注，弱标注，少标注，半标注对应的各类解决方案可谓是百花齐放。在第二章我们也尝试通过多目标对抗学习的方式引入额外的NER样本，或者分词边界来提高people daily小样本数据集的效果。

02

深度学习500问——Chapter08：目标检测（9）

验证是否过拟合的方法：画出loss曲线，如果训练集loss持续减小但是验证集loss增大，就说明是过拟合了。

00

图像分类经典项目：基于开源数据集Fashion-MNIST的应用实践

图像分类是计算机视觉和数字图像处理的一个基本问题。传统的图像分类方法通过人工设计提取图像特征，而基于深度学习的图像分类方法能够自动提取特征，其中卷积神经网络(CNN)近年来取得了惊人的成绩。

03

深度学习中的数据增强技术：Augmentation

数据增强（Data Augmentation）是一种通过利用算法来扩展训练数据的技术。人工智能三要素之一为数据，但获取大量数据成本高，但数据又是提高模型精度和泛化效果的重要因素。当数据量不足时，模型很容易过拟合，精度也无法继续提升，因此数据增强技术应运而生：利用算法，自动增强训练数据。

01

【技术综述】深度学习中的数据增强方法都有哪些？

很多实际的项目，我们都难以有充足的数据来完成任务，要保证完美的完成任务，有两件事情需要做好：(1)寻找更多的数据。(2)充分利用已有的数据进行数据增强，今天就来说说数据增强。

01

厚积薄发的一年---用Jetson Nano实现入侵检测的项目分享

回顾2023，有为了一个BUG或知识熬过夜，也有为了项目连续几天三点一线，在这期间的积累的一砖一瓦中，除了直接获得专业知识，提高专业技能外，更多的是从项目中得到足以使我终生受益的其他收获。下面就一今年收获最多的项目来总结我的2023 ————————————————————————————————

01

【技术综述】深度学习中的数据增强方法都有哪些？

数据增强也叫数据扩增，意思是在不实质性的增加数据的情况下，让有限的数据产生等价于更多数据的价值。

05

【每周CV论文推荐】 CV领域中数据增强相关的论文推荐

欢迎来到《每周CV论文推荐》。在这个专栏里，还是本着有三AI一贯的原则，专注于让大家能够系统性完成学习，所以我们推荐的文章也必定是同一主题的。

03

提升分类模型acc(二)：图像分类技巧实战

本篇文章是本系列的第二篇文章，主要是介绍张航的Bag of Tricks for Image Classification 中的一些方法以及自己实际使用的一些trick。

02

不要相信模型输出的概率打分......

大家在训练深度学习模型的时候，有没有遇到这样的场景：分类任务的准确率比较高，但是模型输出的预测概率和实际预测准确率存在比较大的差异？这就是现代深度学习模型面临的校准问题。在很多场景中，我们不仅关注分类效果或者排序效果（auc），还希望模型预测的概率也是准的。例如在自动驾驶场景中，如果模型无法以置信度较高的水平检测行人或障碍物，就应该通过输出概率反映出来，并让模型依赖其他信息进行决策。再比如在广告场景中，ctr预测除了给广告排序外，还会用于确定最终的扣费价格，如果ctr的概率预测的不准，会导致广告主的扣费偏高或偏低。

01

一文归纳Ai数据增强之法

数据、算法、算力是人工智能发展的三要素。数据决定了Ai模型学习的上限，数据规模越大、质量越高，模型就能够拥有更好的泛化能力。然而在实际工程中，经常有数据量太少(相对模型而言)、样本不均衡、很难覆盖全部的场景等问题，解决这类问题的一个有效途径是通过数据增强（Data Augmentation），使模型学习获得较好的泛化性能。

06

MixMatch的fastai / Pytorch实现

在这篇文章中，将讨论和实施Berthelot，Carlini，Goodfellow，Oliver，Papernot和Raffel [1]的“MixMatch：A Semiistic Approach to Semi-Supervised Learning;”。MixMatch于2019年5月发布，是一种半监督学习算法，其性能明显优于以前的方法。

04

深度学习应用篇-计算机视觉-图像增广1：数据增广、图像混叠、图像剪裁类变化类等详解

在图像分类任务中，图像数据的增广是一种常用的正则化方法，主要用于增加训练数据集，让数据集尽可能的多样化，使得训练的模型具有更强的泛化能力，常用于数据量不足或者模型参数较多的场景。除了 ImageNet 分类任务标准数据增广方法外，还有8种数据增广方式非常常用，这里对其进行简单的介绍和对比，大家也可以将这些增广方法应用到自己的任务中，以获得模型精度的提升。这8种数据增广方式在ImageNet上的精度指标如图1 所示。

00

旷视AI复杂场景的交通标志检测

向AI转型的程序员都关注了这个号👇👇👇 机器学习AI算法工程公众号：datayx 交通标志本身种类众多，大小不定，并且在交通复杂的十字路口场景下，由于光照、天气等因素的影响，使其被精确检测变得更加困难。提高上述场景下交通标志检测准确度，将有助于降低十字路口交通事故发生的概率。提供真实场景的道路图片，部分图片给出了交通标志的标注结果，所有交通标志共计 5 个类别，分别为红灯、直行标志、向左转弯标志、禁止驶入和禁止临时停车。数据示例如下：初赛1/177，复赛1/12 全部代码 ,方案详情获取

04

ICCV 2021 | 基于生成数据的人脸识别

本文是对发表于计算机视觉领域顶级会议ICCV 2021的论文“SynFace: Face Recognition with Synthetic Data” （基于生成数据的人脸识别）的解读。

02

ResNet50 文艺复兴 | ViT 原作者让 ResNet50 精度达到82.8%，完美起飞！！！

大型视觉模型目前主导着计算机视觉的许多领域。最新的图像分类、目标检测或语义分割模型都将模型的大小推到现代硬件允许的极限。尽管它们的性能令人印象深刻，但由于计算成本高，这些模型很少在实践中使用。

03

mix的中文是什么_mix是最小的意思吗

《mixup：BEYOND EMPIRICAL RISK MINIMIZATION》

01

超级干货 | 用万字文章总结25种正则化方法（值得收藏）

卷积神经网络已经在一些与计算机视觉相关的任务上取得了相当不错的结果，如图像分类和目标检测。这种成功可以用卷积神经元的工作原理来解释：它根据图像的空间属性来突出给定的特征。浅层网络注意是归纳一些形状或者纹理特征;然而，更深层次的网络可以检测出更复杂更抽象的特征，比如整个物体或人脸。如今，从生物识别到疾病检测，很难找到其他没有CNN的计算机视觉技术。

03

ICLR2021对比学习（Contrastive Learning）NLP领域论文进展梳理

本次我挑选了ICLR2021中NLP领域下的六篇文章进行解读，包含了文本生成、自然语言理解、预训练语言模型训练和去偏、以及文本匹配和文本检索。从这些论文的思想中借鉴了一些idea用于公司自身的业务中，最终起到了一个不错的效果。

02

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭