继 2018 年谷歌的 BERT 模型获得巨大成功之后,在纯文本之外的任务上也有越来越多的研究人员借鉴了 BERT 的思维,开发出各种语音、视觉、视频融合的 BERT 模型。
选自arXiv 机器之心编译 参与:Smith 在本篇论文中,作者聚焦于一个更具挑战性的语义处理任务,在保持图像独有特征(例如视角和形状)的同时修改物体的语义含义,比如,牛→羊,摩托车→自行车,猫→狗。为了处理这样大型的语义变换,作者引入了一种带有新型对抗式对比目标(adversarial contrasting objective)的对比型 GAN(contrast-GAN)。论文还提出了配有新型比较式目标的,蒙版条件式对比 GAN(mask-conditional contrast-GAN)结构,它能够
人类可以很容易地推断出给定图像中最突出的物体,并能描述出场景内容,如物体所处于的环境或是物体特征。而且,重要的是,物体与物体之间如何在同一个场景中互动。视觉描述的任务是开发视觉系统来生成图像中物体的上
给定一个图像,人类可以很容易地推断其中的显着实体,并有效地描述场景,如对象所在的位置(在森林或厨房?),对象具有什么属性(棕色或白色?),更重要的是,物体如何与场景中的其他物体(在田野里奔跑,或被人等等)相互作用。视觉描述的任务旨在开发视觉系统,生成关于图像中对象的上下文描述。视觉描述是具有挑战性的,因为它不仅需要识别对象(熊),还需要识别其他视觉元素,如动作(站立)和属性(棕色),并构建一个流畅的句子来描述图像中的对象,动作和属性如何相关(如棕熊站在森林中的一块岩石上)。
选自BAIR 作者:Subhashini Venugopalan、Lisa Anne Hendricks 机器之心经授权编译 参与:路雪 现在的视觉描述只能描述现有的训练数据集中出现过的图像,且需要
多模态机器学习,英文全称 MultiModal Machine Learning (MMML),旨在通过机器学习的方法实现处理和理解多源模态信息的能力。目前比较热门的研究方向是图像、视频、音频、语义之间的多模态学习。
选自arXiv 作者:Zeming Li、Chao Peng、Gang Yu、Xiangyu Zhang、Yangdong Deng、Jian Sun 机器之心编译 参与:路雪、刘晓坤 基于当前用预训练分类器开发目标检测器的方法的固有缺陷,来自清华大学和旷视的研究者提出了专用于目标检测的骨干网络 DetNet。DetNet 可在保持高分辨率特征图和大感受野的同时,高效地执行目标检测任务,并可以自然地扩展到实例分割任务上。在 MSCOCO 数据集的目标检测和实例分割任务上,DetNet 都取得了当前最佳的结果
1. CIFAR-10 & CIFAR-100 CIFAR-10包含10个类别,50,000个训练图像,彩色图像大小:32x32,10,000个测试图像。 下载地址 https://www.cs.toronto.edu/~kriz/cifar.html (类别:airplane,automobile, bird, cat, deer, dog, frog, horse, ship, truck) (作者:Alex Krizhevsky, Vinod Nair, and Geoffr
前几天腾讯公布了一篇论文RefineDetLite: A Lightweight One-stage Object Detection Framework for CPU-only Devices,提出一种面向CPU设备的轻量级一阶段目标检测网络RefineDetLite,其在MSCOCO 上可以达到精度29.4 AP,同时在Intel 6700 @3.4G HZ 型号CPU上可以跑到130ms/图片(320X320),是目前轻量级通用目标检测网络的佼佼者。
人体姿态估计(HPE)旨在给定图像中估计人体每个关节点的位置。HPE任务支持广泛的下游任务,如活动识别,运动捕捉等。近年来,随着ViT模型在许多视觉任务上被证明有效,许多基于Transformer的方法在HPE任务上取得了优异的性能。与过去的基于CNN的方法相比,基于Transformer的模型在捕捉视觉元素之间的关系方面要强大得多。
前脚刚推出取得了40多个新SOTA的Florence「佛罗伦萨」吊打CLIP,横扫40多个SOTA。
随着VLMs规模的增大,用全参数更新来提高VLMs的对抗鲁棒性的传统对抗训练方法将导致高昂的计算和存储成本。近年来,由于在调整大规模预训练模型方面的显著成功,参数高效微调(PEFT)技术作为新型的适应范式受到了广泛关注。PEFT技术可以使用极小的额外可调参数调整VLMs,并且在性能上与FFT方法相当或更优。尽管PEFT技术在自然场景中取得了显著的成功,但在对抗攻击场景中的应用仍然很大程度上未被探索。但简单地在传统适应方法上应用对抗训练将导致1)防御性能有限和2)计算和存储成本高昂。为了验证作者的观点,作者在图2中可视化了不同对抗适应方法的对抗鲁棒性性能和可调参数数量。从结果中,作者发现FFT和UniAdapter等现有适应方法会导致大的参数成本。此外,LoRA、LP和Aurora对对抗攻击并不鲁棒。
可以看到在用Calibaration Tool进行Int8量化之前需要先解决如何将我们的原始数据集转为Annotations文件以及我们如何用精度检查工具(Accuracy Checker Tool)去评估我们的量化后模型的表现。其中将原始数据集转换为Annotations文件的时候用命令是比较方便,如果懒得写配置文件的话。而要使用精度检查工具,则必须写配置文件了,具体见本文后面的详细介绍。
机器之心报道 编辑:陈萍、小舟 AI会是未来的「造物者」吗? 近来,视觉合成任务备受关注。几天前英伟达的 GauGAN 刚刚上新了 2.0 版本,现在一个新视觉合成模型 Nüwa(女娲)也火了。 相比于 GauGAN,「女娲」的生成模式更加多样,不仅有文本涂鸦生成图像,还能从文本生成视频。 随着 VQ-VAE 这种离散化 VAE 方案的出现,高效和大规模的预训练被逐渐应用于视觉合成任务,例如 DALL-E(图像)、GODIVA(视频)。这些模型虽然取得了巨大的成功,但仍然存在一些局限性——它们分别处理图
从今年 4 月 YOLOv4 发布后,对于这个目标检测框架,问的最多的问题或许就是:「有没有同学复现 YOLOv4 的, 可以交流一下么」。由于原版 YOLO 使用 C 语言进行编程,光凭这一点就让不少同学望而却步。网上有很多基于 TF/Keras 和 Caffe 等的复现版本,但不少项目只给了代码,并没有给出模型在 COCO、PASCAL VOC 数据集上的训练结果。
从今年 4 月 YOLOv4 发布后,对于这个目标检测框架,问的最多的问题或许就是: 「有没有同学复现 YOLOv4 的, 可以交流一下么」。 由于原版 YOLO 使用 C 语言进行编程,光凭这一点就让不少同学望而却步。网上有很多基于 TF/Keras 和 Caffe 等的复现版本,但不少项目只给了代码,并没有给出模型在 COCO、PASCAL VOC 数据集上的训练结果。
从今年4月YOLOv4发布后,对于这个目标检测框架,问的最多的问题或许就是:「有没有同学复现YOLOv4的, 可以交流一下么」。由于原版YOLO使用C语言进行编程,光凭这一点就让不少同学望而却步。网上有很多基于TF/Keras和Caffe等的复现版本,但不少项目只给了代码,并没有给出模型在COCO、PASCAL VOC数据集上的训练结果。
最近CVPR不是在线直播,我关注了下,发现一篇很有意思的paper。让我想到在研究生有做过类似的算法——因果关系。今天我们看看这位作者是怎么处理的。
AI科技评论按:图像语义分割是 AI 领域中一个重要的分支,是机器视觉技术中关于图像理解的重要一环。近年的自动驾驶技术中,也需要用到这种技术。车载摄像头探查到图像,后台计算机可以自动将图像分割归类,以避让行人和车辆等障碍。随着近些年深度学习的火热,使得图像分割有了巨大的发展,本文为大家介绍深度学习中图像分割的经典算法。 在近期 GAIR 大讲堂上,来自浙江大学的在读博士生刘汉唐为等候在直播间的同学们做了一场主题为「图像分割的经典算法」的技术分享,本文根据直播分享内容整理而成,同学们如果对嘉宾所讲的内容感兴趣
NLP模型规模快速增长,正如OpenAI的LLM发展所示,从GPT-2的15亿参数到GPT-3的1750亿(Brown et al., 2020),再到GPT-4的超一万亿,这引起了越来越多的关注。这一趋势需要更多的数据和计算能力,导致更高的碳排放,并为资源较少的研究行人带来重大障碍。作为回应,该领域正在转向如检索增强生成等方法,该方法将外部非参数的世界知识融入到预训练的语言模型中,无需将所有信息直接编码到模型的参数中。然而,这种策略在视觉-语言模型(VLMs)中尚未广泛应用,这些模型处理图像和文本数据,通常更加资源密集型。此外,VLMs通常依赖如LAION-5B 这样的大规模数据集,通过检索增强提供了显著提升性能的机会。
),用于将CLIP表示转换为人类可解释的概念的稀疏线性组合。与之前的工作不同,SpLiCE不需要概念标签,可以在事后应用。 通过使用多个真实世界数据集的广泛实验,作者验证了SpLiCE输出的表示可以解释甚至替代传统的密集CLIP表示,在保持等效的下游性能的同时显著提高它们的可解释性。作者还展示了SpLiCE表示的几个用例,包括检测虚假相关性、模型编辑以及量化数据集中的语义变化。 代码:https://github.com/AI4LIFE-GROUP/SpLiCE
大家做对象检测模型训练与迁移学习时候,常常需要自己标注数据,特别是针对一些自定义的对象做标注的时候,标注数据是一项枯燥而且乏味的工作,虽然大家都知道标注数据工作很重要,特别是高质量的标注数据是模型取得良好效果的必要条件,但是毕竟是基础工作,很多CV开发者还是很不愿意干这个活的,手动标注考验耐心,让人崩溃!小编曾经标注了三天的数据就觉得很难受了,要想告别手动标注,有什么好工具,最近小编就发现一个很好的开源工具,可以实现半自动的对象检测数据标注,然后简单的人工检查一下就好啦,真的是大大降低人力成本与时间成本。这个神器就是Anno-Mage
机器之心发布 作者:Hongge Chen 近日,针对深度学习系统的对抗性样本攻击问题,来自麻省理工学院,加州大学戴维斯分校,IBM Research 和腾讯 AI Lab 的学者在 arXiv 上发表论文提出对于神经网络图像标注系统(neural image captioning system)的对抗样本生成方法。实验结果显示图像标注系统能够很容易地被欺骗。 深度学习系统正在越来越广泛地应用于各种场景中,帮助人类完成许多繁琐的工作。但是在很多方面上,计算机科学家们并不完全理解深度学习的工作机理。最近的研究
[Title]:Dual-Path Convolutional Image-Text Embedding
http://www.robots.ox.ac.uk/~vgg/data/scenetext/
本文来自ECCV 2018 选为Oral的论文《Learning-based Video Motion Magnification》,代码已开源,作者信息:
记者 | 周翔 8 月 14 日,创新工场、搜狗和今日头条联合宣布共同发起“AI Challenger 全球 AI 挑战赛”。其中,CSDN 作为选手社区,为大赛提供支持。(点击查看《奖金200万,千万数据规模,创新工场搜狗今日头条联合发起迄今国内最大AI挑战赛》) 本届 AI Challenger 大赛的主赛道竞赛分别是:人体骨骼关键点检测竞赛、图像中文描述竞赛、场景分类竞赛、英中机器文本翻译竞赛、英中机器同声传译竞赛。 昨日( 9 月 4 日),首届“AI Challenger 全球 AI 挑战赛”于正
研究者在这篇论文中提出了 Matrix Net (xNet),它是一种用于目标检测的深度架构。研究者利用 xNet 加强基于关键点的目标检测,并且在 MS COCO 数据集上获得了 47.8 的 mAP,这比其它任何一步(single-shot)检测器效果都要好,而且参数量减半。重要的是,相比效果第二好的架构,xNets 在训练上要快了 3 倍。
深度学习领域的入门数据集,当前主流的深度学习框架几乎都将MNIST数据集的处理入门第一教程。MNIST是一个手写数字数据库,它有60000个训练样本集和10000个测试样本集,每个样本图像的宽高为28*28,数字放在一个归一化的、固定尺寸的图片的中心。
I 研习社消息,日前,上海交通大学卢策吾团队开源 AlphaPose。AlphaPose 是一个多人姿态估计系统,具有极高的精准度。 据卢策吾团队介绍, AlphaPose 在姿态估计(Pose Es
人体全身姿态与体型估计(EHPS, Expressive Human Pose and Shape estimation)虽然目前已经取得了非常大研究进展,但当下最先进的方法仍然受限于有限的训练数据集。
最近杭州天空终于有太阳了,心情都好起来了。真正的春天到来了,为了消除春困,有兴趣的可以和我们一起探讨下接下来讲述的技术框架,主要涉及深度学习及目标检测领域,那就开始吧!
作者:Abdullah Rashwan、Agastya Kalra、Pascal Poupart
JSON文件的基本格式,以实例分割为例,主要有五个部分:info、licenses、images、annotations、categories
野外相机能够自动收集大量的图像信息,不过不幸的是,收集到的大量图片都是误报,这些错误大多是由非动物引起的,比如草木的晃动。 本次比赛旨在预测白天和晚上从各个地点捕捉到的图像是否包括动物,其主要的挑战是推断出数据集中不存在的野外相机的位置。另一个挑战是某些图像可能包含会触发相机但是对结果毫无用处的信息,比如车辆和人。 比赛官网: https://sites.google.com/view/fgvc5/competitions/fgvcx/iwildcam 赛事官方 Github 页面: https://git
从今天开始,我将为大家逐步介绍Mask RCNN这个将检测和分割统一起来的框架的具体原理以及详细代码解读,项目地址为https://github.com/matterport/Mask_RCNN,基于TensorFlow1.x和Keras框架实现。
来源:本文经AI新媒体量子位(公众号 ID: QbitAI)授权转载,转载请联系出处本文约1300字,建议阅读9分钟本文介绍了字节的最新text2image模型,实现了文本-图像都不使用,也可以让AI学会看文作图。 一个文本-图像对数据都不用,也能让AI学会看文作图? 来自字节的最新text2image模型,就做到了。 实验数据显示,它的效果比VQGAN-CLIP要真实,尤其是泛化能力还比不少用大量文本-图像数据对训练出来的模型要好很多。 嗯?不给文字注释AI怎么知道每一张图片代表什么? 这个模型到底咋训
作者丨邹月娴整理 | 维克多 编辑 | 青暮 预训练模型在自然语言处理和计算机视觉领域引起了学术界和工业界的广泛关注。利用大规模无监督数据进行训练的预训练模型有着非常好的泛化性,只需在小规模标注数据上进行微调,就可以在相应任务上有所提高。但相关研究的进展如何?还有哪些问题需要进一步探索? 2021年12月16日,北京大学深圳研究生院党委副书记、教授、博士生导师、北京大学现代信号与数据处理实验室主任邹月娴在中国计算机大会(CNCC 2021)“产业共话:大型预训练模型的商业应用及技术发展方向”论坛上,做了《视
1、只采集HR图像的数据集,如DIV2K,DIV8K等数据集,对于此类数据集可采用不同的退化方式获取相应的LR图像,从而构造匹配的LR-HR训练图像对,以这种方式获得的训练数据集一般被称为合成数据集。
在 5 个月时间里(5月-9月),创新工场旗下人工智能企业创新奇智连续在世界顶级人脸检测竞赛 WIDER FACE、物体检测竞赛 PASCAL VOC、图像分割竞赛 Cityscapes 中取得三冠的佳绩,体现了创新奇智人工智能算法能力,尤其是在计算机视觉领域中算法的创新和设计能力。
河道垃圾自动监测系统基于Tensorflow开源深度学习框架训练的模型算法对图像进行特征分类学习,河道垃圾自动监测算法发现河道两岸及水面出现垃圾时,立即抓拍归档同步发送告警。现阶段模型算法主体主要基于2020年4月发布的YOLOv4目标检测网络。
丰色 发自 凹非寺 量子位 | 公众号 QbitAI 一个文本-图像对数据都不用,也能让AI学会看文作图? 来自字节的最新text2image模型,就做到了。 实验数据显示,它的效果比VQGAN-CLIP要真实,尤其是泛化能力还比不少用大量文本-图像数据对训练出来的模型要好很多。 嗯?不给文字注释AI怎么知道每一张图片代表什么? 这个模型到底咋训练出来的? 不用文字训练也能根据文本生成图像 首先,之所以选择这样一种方式,作者表示,是因为收集大量带文字的图像数据集的成本太高了。 而一旦摆脱对文本-图像对数
在本文中,作者提出了M3P,一个多任务、多语言、多模态预训练模型 ,通过多任务预训练目标将多语言预训练和多模态预训练结合到一个统一的框架中。M3P的目标是学习通用的表示,可以将以不同方式出现的对象或以不同语言表达的文本映射到一个公共语义空间。
本文介绍的是 CVPR 2020 上录用为 Oral 的论文《Say As You Wish: Fine-grained Control of Image Caption Generation with Abstract Scene Graph》(已开源),文章作者是中国人民大学博士生陈师哲同学,这项工作是陈师哲同学在澳大利亚阿德莱德大学吴琦老师组访问时所完成。
近年来,目标检测在人脸检测、视频目标检测、视频监控、自动驾驶汽车等不同应用领域得到了广泛的研究。在这一领域,深度学习架构的采用导致产生了高度精确的方法,如Faster R-CNN、RetinaNet,进一步发展为Cascade R-CNN、VarifocalNet和变体。
图像分割(image segmentation)任务的定义是:根据某些规则将图片分成若干个特定的、具有独特性质的区域,并提出感兴趣目标的技术和过程。
本文对VLM领域多个任务的常见数据集和benchmark做了简要介绍,以方便读友看论文时参考。
在具有有限计算能力和存储器资源的移动设备上运行卷积神经网络(CNN)模型的日益增长的需求促进了对有效模型设计的研究。近年来已经提出了许多有效的架构,例如:MobileNet,ShuffleNet和NASNet-A。
在训练神经网络之前,我们必须有数据,作为资深伸手党,必须知道以下几个数据提供源: 1 CIFAR-10 CIFAR-10图片样本截图 CIFAR-10是多伦多大学提供的图片数据库,图片分辨率压缩至3
最近已作出大量努力,提出光学遥感图像中的各种目标检测方法。然而,目前对光学遥感图像中目标检测的数据集调查和基于深度学习的方法还不够完善。此外,现有的数据集大多存在一些不足之处,如图像和目标类别数量较少,图像多样性和变异性不足。这些局限性极大地影响了基于深度学习的目标检测方法的发展。本文综述了近年来计算机视觉和地球观测领域基于深度学习的目标检测研究进展。然后,我们提出了一个大规模、公开可用的光学遥感图像目标检测基准,我们将其命名为DIOR。数据集包含23463张图像和190288个实例,覆盖20个目标类。建议的DIOR数据集1)在目标类别、目标实例数量和总图像数量上都是大规模的;2)具有大范围的对象尺寸变化,不仅在空间分辨率方面,而且在跨目标的类间和类内尺寸变化方面;3)由于成像条件、天气、季节、成像质量的不同,成像结果差异较大;4)具有较高的类间相似性和类内多样性。提出的基准可以帮助研究人员开发和验证他们的数据驱动方法。最后,我们评估了DIOR数据集中的几种最先进的方法,为未来的研究奠定了基础。
领取专属 10元无门槛券
手把手带您无忧上云