首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

A full data augmentation pipeline for small object detection based on GAN

模型由两个网络组成,这两个网络在对抗性过程训练,其中一个网络(生成器)迭代生成假图像,另一个网络在真图像和假图像之间进行区分。因此,对抗性损失迫使生成图像原则上与真实图像无法区分。  ...使用这种架构,我们目标是训练G生成以HR样本条件SLR样本。为了实现这一点,对抗性损失选择目标函数是铰链损失[39]: 其中 是LR子集分布, 是要通过替代优化学习生成器分布。...对抗性损失 基于鉴别器概率定义:  其中 是HR子集,z是噪声向量。对抗性损失是以不成对方式计算,使用LR子集使SLR目标被真实世界伪影污染。...参考是通过在LR训练子集(蓝条)上训练模型获得。 图7FID使用Inception-v3[44]最终平均池特征进行测量。与LR测试子集相比,LR训练对象参考27.62。...通过双线性插重新缩放对象数据扩充到DS-GAN生成合成对象改进分别为3.6%AP 和8.2% 在FPN,3.7% 和9.3% 在STDnet5秒,在[.5,.95]秒时7.7%

35120

CVPR 2023 | CAVSR:压缩感知视频超分辨率

模型结构 图1 整体结构 CAVSR 模型整体框架如上图:比特流元数据中提取类型、运动向量和残差映射。这些额外信息将被压缩编码器处理以对当前特征进行上采样。...对于类型分支,每个类型分配一个向量,并使用令牌嵌入来表示信息。对于内容分支,视频编解码器解码被馈送到几个卷积层。...将来自内容分支特征映射和来自类型分支令牌嵌入组合为压缩表示,记为Ct。...方便起见,根据压缩量对每种类型{I, P, B}定义分数 Qf ={0,1,2},对不同压缩系数定义另一个分数 Qc = CRF 。...元数据辅助传播 由于 B 内容被严重压缩,计算隐藏状态可能比其他包含更少信息,因此随着时间推移,在传播过程中导致性能下降。

85431
您找到你想要的搜索结果了吗?
是的
没有找到

不平衡之钥: 重采样法何其多

;平方根采样是实例平衡采样一种变体,其中每个类别的采样概率与相应类别样本大小平方根有关;渐进平衡采样在实例平衡采样和类别平衡采样之间进行渐进插。...2.7 VideoLT VideoLT [8] 试图解决不平衡视频识别问题,引入了一种新 FrameStack 方法,方法进行采样以重新平衡类分布。...具体来说,FrameStack 在训练时会根据运行模型性能动态调整不同类采样率,使其可以尾部类(通常运行性能较低)采样更多视频,从头类采样更少。...此外,五元组损失每个数据批次包含来自不同类别的相同数量样本,用于类别重平衡。...为了解决类增量学习过程灾难性遗忘,LST 开发了一种类平衡数据回复/采样策略,策略为知识蒸馏保持相对平衡样本集。

85720

听声辨物,这是AI视觉???|ECCV 2022

据最新放榜结果,论文已被ECCV 2022接受。 精准锁定发声物 听觉和视觉是人类感知世界中最重要两个传感器。生活里,声音信号和视觉信号往往是互补。...△ AVS 任务与 SSL 任务比较 视听分割“迎难而上”,提出要准确分割出视频中正在发声物体全貌—— 即以音频指导信号,确定分割哪个物体,并得到其完整像素级掩码图。...单声源子集包含23类,共4932个视频,包含婴儿、猫狗、吉他、赛车、除草机等与日常生活息息相关发声物。 △AVSBench单源子集数据分布 多声源子集则包含了424个视频。...结合难易情况,单声源子集在半监督条件下进行,多声源子集则以全监督条件进行。 研究人员对AVSBench里每个视频等间隔采样5,然后人工对发声体进行像素级标注。...对于单声源子集,仅标注采样第一张视频;对于多声源子集,5图像都被标注——这就是所谓半监督和全监督。

31330

换天造物,秒变科幻大片!华人学者推出视频修复AI新玩法

1 AI视频修复新玩法 这项AI处理方法来自密歇根大学一位华人博士后最新研究。方法基于视觉技术可一键调整视频天空背景和天气转换。...其中,编码器目的是学习下采样输入图像中间特征表示。解码器被用来训练和预测粗糙天空。优化模块同时接收粗糙天空蒙版和高分辨率输入,并生成一个高精度天空蒙版。...3 实验结果 研究人员采用了天空电视台上一个数据集。数据集基于AED20K数据集构建而成,包括多个子集其中每个子集对应于使用不同方法创建真实填空遮罩。...第一行两个原始输入;第三行CycleGAN结果 在定性比较上,PI和NIQE得分值越低越好。 可以看出,方法在定量指标和视觉质量方面都优于CycleGAN。...他说, 数据规模和质量是计算机视觉技术基础,在现实场景,即使ImageNet、MS-COCO等大规模数据集,在应用也存在采样偏差带来局限,而方法对于提高深度学习模型在检测、分割、跟踪等各种视觉任务泛化能力具有很大潜力

72620

CVPR竞赛冠军方案:运动表达引导视频分割方法,代码及技术报告均已开源

经过两阶段训练,分割模型不仅能够关注单个视频信息,也能捕捉和利用视频之间时间关系。 缓解分割模型在处理长视频时计算负担,研究团队提出了采样推理方案。...在采样过程,使用间隔采样方式,以确保每个子集都覆盖视频全局时间上下文,实现语言信息与视频信息充分交互。...输入视频和描述目标对象文本,方案首先将视频进行间隔采样,得到视频子集(图中以两个子集例,分别使用绿色和蓝色框标识)。推理过程,每个子集被独立分割,对结果进行拼接后得到最终目标分割输出。...实验结果 方案在MeViS测试数据上达到了0.5447 J&F准确率,排名第一。实验结果显示,即使在包含多个同类实例和长视频复杂场景方案也能有效识别和分割目标对象。...百分比表示对应视频在视频位置。黄色和绿色掩码,分别来自黄色和绿色文字引导视频分割。

2110

听声辨物,这是AI视觉???|ECCV 2022

据最新放榜结果,论文已被ECCV 2022接受。 精准锁定发声物 听觉和视觉是人类感知世界中最重要两个传感器。生活里,声音信号和视觉信号往往是互补。...△ AVS 任务与 SSL 任务比较 视听分割“迎难而上”,提出要准确分割出视频中正在发声物体全貌—— 即以音频指导信号,确定分割哪个物体,并得到其完整像素级掩码图。...单声源子集包含23类,共4932个视频,包含婴儿、猫狗、吉他、赛车、除草机等与日常生活息息相关发声物。 △AVSBench单源子集数据分布 多声源子集则包含了424个视频。...结合难易情况,单声源子集在半监督条件下进行,多声源子集则以全监督条件进行。 研究人员对AVSBench里每个视频等间隔采样5,然后人工对发声体进行像素级标注。...对于单声源子集,仅标注采样第一张视频;对于多声源子集,5图像都被标注——这就是所谓半监督和全监督。

33210

单GPU每秒76,重叠对象也能完美分割,多模态Transformer用于视频分割效果惊艳

RVOS 输入序列 ,其中 ;文本查询 ,这里t_i是文本第i个单词;大小 感兴趣子集 ,目标是在每一 中分割对象 。 特征提取。...研究首先使用深度时空编码器序列 V 每一中提取特征。同时使用基于 Transformer 文本编码器文本查询 T 中提取语言特征。然后,将空间-时间和语言特征线性投影到共享维度 D。...最后,通过将每个分割核与其对应特征进行卷积, 生成一系列分割掩码 M,然后进行双线性上采样操作以将掩码大小调整真实分辨率 实验 研究在A2D-Sentences数据集上将MTTR与SOAT...按照之前方法 [11, 24],研究通过在没有微调 JHMDBSentences 上评估模型泛化能力。研究每个视频中统一采样,并在这些上评估模型。...与现有方法[24,37]相比,这些方法是在完整数据集上进行训练和评估,尽管研究模型在较少数据上进行训练,并专门在一个更具挑战性子集上进行评估,但MTTR在所有指标上都表现出了卓越性能。

64140

汇总 | 深度学习图像语义分割基准数据集详解

实现了两个层级标注分布是种类/类别与实例对象分割,其中8498张训练集,2857张测试集。...CamVid 是来自剑桥道路与驾驶场景图像分割数据集,图像数据来自视频提取,原始分辨率大小960x720,包括32个类别。分为367张训练图像,100张验证图像,233张测试图像。...这些图像主要来自OpenSur face数据集。整个数据图像分辨率分布800x500到500x800之间。...主要有50段视频序列构成,其中4219是训练数据,2013是验证数据,所有的视频数据都下采样至480P大小,像素级别的对每帧数据标注四个类别,分别是人、动物、车辆、对象。...mask信息,其中通道R与G被编码成对象mask,通道B被编码成实例mask。

2.6K30

H.264学习笔记

其手段是构建一个预测,并将其中当前数据减去。...参考是先前就编码好一个,在时间维上,参考可以在过去或者未来。参考以当前宏块中心区域被搜索,寻找最佳匹配。 最佳匹配照度、色差采样,被当前宏块减去,这样就产生了一个残余宏块。...09 宏块运动补偿和预测 某些情况下,参考后(非整数像素)采样位置进行预测可能获得更佳效果。...主要有两类量化器: 标量量化器:将输入信号一个采样映射一个量化输出 向量量化器:将输入信号一组采样映射一组量化 重排和零编码 对于一个基于转换图像/视频编码器,量化器输出是一个稀疏数组...DONB当前包以NALU解码序计第一个NALUDON

1.3K10

结合语义和多层特征融合行人检测

行人检测误检是指将背景相似物预测行人,而传统目标检测存在多个类别,其误检是指将一个正确目标错误地预测另一个目标。...其中标注了350 000个矩形框,2300个行人,超过70%行人至少在一内出现了遮挡。...数据集分为11个视频组set00 ~ set10,其中set00 ~ set05训练集,根据Caltech10 × 标准对训练集中42782张图像训练,对剩余set06 ~ set104024...CityPersons数据集是基于语义分割Cityscapes数据一个行人检测数据集,其数据德国18个城市,在三个不同季节和不同天气条件下收集。...其中,漏检率是指正样本被模型预测负样本数目与所有正样本数目的比例;每图像误检率(FPPI)是指负样本被模型预测正样本数目与所有样本比例;对数平均漏检率是MR-FPPI曲线在对数空间 内均匀分布九个点平均值

68520

X-Pool:多伦多大学提出基于文本视频聚合方式,在视频文本检索上达到SOTA性能!(CVPR 2022)

相反,文本在语义上最类似于视频子区域,表示子集。根据给定文本,语义最相似的会有所不同,因此多个同等有效文本可以匹配特定视频。 图1展示了来自MSR-VTT数据示例视频。...相反,文本在语义上与我们定义子集视频某些子区域最为相似。因此,文本不可知聚合方案(平均池化、自注意力或LSTM)可能会对输入文本未描述虚假信息进行编码。...核心机制是在文本和视频之间调整scaled dot product attention。以这些条件,生成一个视频嵌入,学习捕获给定文本描述语义最相似的视频子区域。...其中,结果输出是以文本t条件聚合视频嵌入。...因此,文本可以通过点积注意中参数推理来关注其语义最相似的。最终文本条件池化定义其中FC是一个全连接网络。 Loss 作者使用由N个文本和视频对组成数据集D来训练模型。

95810

交互式相机标定高效位姿选择方法

方法在单独训练集和测试集以及合成数据上进行了评估。我们方法比可比较解决方案性能更好,同时需要更少30%标定。...然而,姿态对失真参数估计或一般相机相对标定板姿态影响迄今尚未被考虑。 ---- 另一个方面是标定数据质量和数量。...此外,如图5b所示,IOD减少适用于平衡校准质量和所需校准数量。 5.2 真实数据 图片 图片 我们使用了第2.2节描述模式,模式OpenCV和我们方法提供了每40个测量值。...然而,目前还不清楚解决方案是使用最小量,还是有可能在达到相同校准错误同时使用子集。 因此,我们进一步测试了我们校准结果紧致性。...使最小化被合并到关键集中。在步骤2继续。 如果不能进一步减少或所有都已被使用,则终止。 在保持相同估计误差情况下,贪婪最优解需要75%,同时(见表1)。

94320

决策树:一种像人脑一样工作算法

绿叶穿透阳光” 来自 Unsplash Jeremy Bishop 决策树是用于机器学习最流行算法之一,尤其对于分类和回归问题。我们每次做决策时大脑都像决策树一样工作。...““如果是,我会带一把雨伞” 当我们为了分类变量而训练数据集时,决策树主要理念是依据确定特征数据分成更小数据集直到特征变量全部归一类。...比如:一个宠物重量大于15磅,我们会确定这是只狗,至少对于这个简单数据集来说是这样,但是如果重量小于15磅我们子集将会再次分支,其中包含由两只猫所构成分支和一条狗所构成分支,直到每个分支只剩下一类元素...,这些都是有效方法,但是随机森林通过 boostrapping 生成了很多新数据集(比如:对源数据拷贝进行采样);它拟合了树每一个新数据并且通过均值进行预测森林中所有树。...作为替代Ada Boost可以自学习,是适应性非常强树,通过调整不正确分类实例而永远使用相同数据。 想要继续查看篇文章更多代码、链接和参考文献?

61030

视频预训练界HERO!微软提出视频-语言全表示预训练模型HERO,代码已开源!

在FOM,作者随机选择并打乱视频一个子集,并训练模型恢复它们原始顺序。大量消融研究表明,VSM和FOM在视频+语言预训练中都起着关键作用。...Temporal Transformer 在从跨模态Transformer输出收集了所有的视觉嵌入后,作者使用另一个Transformer作为时间Attention,视频片段全局上下文中学习上下文化视频嵌入...目标是通过周围单词和与句子对齐视觉来预测这些mask单词,损失函数最小化预测负对数可能性: 其中,θ表示可训练参数。每对都从训练集D采样。...最终目标是将NCE损失最小化: 3.2.3 Video-Subtitle Matching VSM输入包括:(1)所有字幕句子采样查询;(2)整个视频片段;(3)视频片段剩余字幕句子。...对于每对正对,作者将或替换为同一mini-batch另一个样本,以构建两组负对:和。训练损失可以表示其中,δ是margin超参数。最后损失是,其中λ1和λ2是平衡这两项超参数。

2.5K20

视频生成领域发展概述:多级扩散到LLM

论文还包含了一个精心策划开源数据集组合:LAION-5B2.3B子集其中文本英语+ HD-VILA-100M10M子集+ WebVid-10M 使这篇论文现在已经成为一篇基础论文,后来被许多新方法引用和比较...模型基于像素视频扩散模型(vdm)开始,创建与文本提示密切相关低分辨率视频。然后采用基于潜在vdm将低分辨率输出升级高分辨率视频。...模型结构非常简单,没有或上采样,与VideoCrafterV1和其他T2V ldm类似的架构,结合了SD 2.1初始化权重空间模块和初始化为零时间模块。 首先训练一个视频模型。...模型由一次生成所有基本模型(STUnet)和具有时间感知空间超分辨率(SSR)模型组成(没有),主要是时空u网络(STUnet)。...这包括在文本到图像架构交错时间块,以及插入时间上采样和下采样模块 另一个明显特点是它重新思考级联模型。

47310

Berkeley发布BDD100K:大型多样化驾驶视频数据

作为计算机视觉研究人员,我们有兴趣探索自我驾驶感知算法前沿,使其更安全。为了设计和测试潜在算法,研究者希望利用来自真实驾驶平台收集数据所有信息。...视频是美国不同地点收集,如上图所示。数据库涵盖了不同天气条件,包括晴天,阴天和雨天,包括白天和夜间不同时间。下表是当前数据集与以前相比较,这表明我们数据集更大,更多样化。 ?...注释概述 道路物体检测 研究者所有100,000个关键通常出现在道路上对象标记对象边界框,以了解对象分布和位置。下面的条形图显示了对象数量。还有其他方法可以在注释中使用统计信息。...例如,我们可以比较不同天气条件或不同类型场景下物体数量。图表还显示了数据集中出现多种对象,以及数据规模,即超过100万辆汽车。这些是具有不同外观和情境独特对象。 ?...最后,我们用全实例分割标记10K图像一个子集。我们标记集合与Cityscapes训练注释兼容,以便于研究数据集之间域转换。 ?

51520

Stable Video Diffusion: 将潜在视频扩散模型扩展到大型数据

利用这一点,作者在较小高质量数据集上微调基础模型,用于高分辨率下游任务,如文本到视频和图像到视频,其中作者单个条件反射图像预测一系列。人类偏好研究显示,本文模型优于先进图像到视频模型。...具体而言,作者使用了三个数据子集其中相机运动被归类"水平移动"、"缩放"和"静止"。 图 5 多视角生成 为了同时获取对象多个新视角,作者在多视角数据集上微调了图像到视频SVD模型。...数据集: 作者在两个数据集上微调了SVD模型,其中SVD模型接收一张单独图像并输出一系列多视角图像:(i) Obja verse一个子集,包含了来自原始数据150k个经筛选和CC许可合成3D...对于每个对象,使用随机采样HDRI环境贴图和仰角在[-5°,30°]之间渲染了21360°轨道视频。...在一个未见过测试数据集上评估生成模型,测试数据集由来自Google扫描对象(GSO)数据50个样本对象组成。以及(ii) MVImgNet,其中包含了随意拍摄一般家用物品多视角视频。

1K10

计算机视觉GPT时刻!UC伯克利三巨头祭出首个纯CV大模型,推理惊现AGI火花

而视频数据则受到更多限制(一般是以人类中心活动),但它们却是时态数据宝贵来源。 3D合成对象渲染多样性最低,但可以提供有关3D结构行为宝贵提示。...16视觉序列,是通过以三个不同步长(10、20和30) 对视频进行机采样而形成。 此外,研究人员利用了来自0bjaverse数据合成3D物体,生成了以物体中心多视角序列。...其中使用了f=16采样因子和8192大小代码本。...这意味着对于一个大小256×256图像,研究人员VQGANtokenizer产生16×16=256个token,其中每个token可以取8192个不同。...下图展示了Kinetics-700验证集序列中提示几个下一预测示例。 在顶部示例,7提示(蓝色边框)后跟着预测(红色边框)。

72130

COLMAP-SLAM:一个视觉里程计框架

因此,关键点光流被定义最后一个关键关键点坐标与当前相同关键点坐标之间2D欧氏距离(以像素单位)。...图2: (a) EuRoC Machine Hall (MH) 02数据集中选择关键示例,相对于上一个关键位匹配距离(MMD)105.74像素。...虽然IMU参考系统角速度和加速度测量作为单独观测具有价值,但通过传感器融合算法将它们进行集成可提高IMU机体框架方向估计准确性,而不仅仅是通过陀螺仪数据进行集成得到估计。...EuRoC Machine Hall数据五个子集示例和总帧数 实验 COLMAP-SLAM准确性已在EuRoC Machine Hall数据集上进行了测试,数据集由作者根据难度递增分为五个子集...单目SLAM准确性评估 首次测试是针对EuRoC Machine Hall 01数据单目情况,测试中使用了简单关键选择方法,将20 Hz流降采样到1 Hz。

37810
领券