首页
学习
活动
专区
工具
TVP
发布

机器之心

专栏作者
8931
文章
6275862
阅读量
277
订阅数
CVPR 2023 | 谷歌、MIT提出统一框架MAGE:表征学习超MAE,无监督图像生成超越 Latent Diffusion
机器之心专栏 机器之心编辑部 在一篇 CVPR 2023 论文中,来自 MIT 和谷歌的研究人员提出了一种全新的框架MAGE,同时在图像识别和生成两大任务上实现了 SOTA。 识别和生成是人工智能领域中的两大核心任务,如果能将二者合并到一个统一的系统中,这两个任务应该能实现互补。事实上,在自然语言处理中,像 BERT [1] 这样的模型不仅能够生成高质量的文本,还能够提取文本中的特征。 然而,在计算机视觉领域,目前的图像生成模型和识别模型大多是分开进行训练,没有充分利用这两个任务的协同作用。这主要是由于图
机器之心
2023-03-29
3430
「十亿像素」引领视觉智能技术变革,2022 GigaVision挑战赛圆满落幕
机器之心原创 作者:蛋酱 在十亿像素级数据平台的支撑下,GigaVision 系列赛事秉承「以赛促研、以赛促用」的理念,将持续推动更多前沿性、原创性视觉智能技术的突破。 2012 年,深度学习在 ImageNet 图像挑战赛中取得了巨大的突破,被广泛认为是第三次人工智能革命的标志性事件。以此为开端,十多年间,从人脸识别、跟踪到动作识别,围绕各类视觉智能任务的技术都取得了显著的进展,人工智能理论与技术的大变革时代终于到来。 2017 年,国务院发布《新一代人工智能发展规划》,描绘了中国人工智能未来发展的宏伟
机器之心
2023-02-28
5650
谷歌复用30年前经典算法,CV引入强化学习,网友:视觉RLHF要来了?
机器之心报道 机器之心编辑部 模型预测和预期使用之间存在错位,不利于 CV 模型的部署,来自谷歌等机构的研究者用强化学习技术的奖励函数,从而改善了计算机视觉任务。 ChatGPT 的火爆有目共睹,而对于支撑其成功背后的技术,监督式的指令微调以及基于人类反馈的强化学习至关重要。这些技术也在逐渐扩展到其他 AI 领域,包括计算机视觉(CV)。 我们知道,在处理计算机视觉中的复杂输出时,成功的主要标准不在于模型对训练目标的优化程度,而在于预测能力与任务的吻合程度,即模型在预期用途上的表现效果。 为了追求这种一致性
机器之心
2023-02-27
6010
首个目标检测扩散模型,比Faster R-CNN、DETR好,从随机框中直接检测
扩散模型( Diffusion Model )作为深度生成模型中的新 SOTA,已然在图像生成任务中超越了原 SOTA:例如 GAN,并且在诸多应用领域都有出色的表现,如计算机视觉,NLP、分子图建模、时间序列建模等。
机器之心
2022-12-16
6780
7 Papers & Radios | Stable Diffusion采样速度翻倍;MIT解决神经网络百年难题
论文 1:Closed-form Continuous-time Neural Networks
机器之心
2022-12-16
4130
用CNN做基础模型,可变形卷积InternImage实现检测分割新纪录!
近年来大规模视觉 Transformer 的蓬勃发展推动了计算机视觉领域的性能边界。视觉 Transformer 模型通过扩大模型参数量和训练数据从而击败了卷积神经网络。来自上海人工智能实验室、清华、南大、商汤和港中文的研究人员总结了卷积神经网络和视觉 Transformer 之间的差距。从算子层面看,传统的 CNNs 算子缺乏长距离依赖和自适应空间聚合能力;从结构层面看,传统 CNNs 结构缺乏先进组件。
机器之心
2022-12-16
5980
NeurIPS 2022 | 四分钟内就能训练目标检测器,商汤基模型团队是怎么做到的?
本文提出了一种大批量训练算法 AGVM (Adaptive Gradient Variance Modulator),不仅可以适配于目标检测任务,同时也可以适配各类分割任务。AGVM 可以把目标检测的训练批量大小扩大到 1536,帮助研究人员四分钟训练 Faster R-CNN,3.5 小时把 COCO 刷到 62.2 mAP,均打破了目标检测训练速度的世界纪录。
机器之心
2022-12-16
3920
基于PyTorch、易上手,细粒度图像识别深度学习工具库Hawkeye开源
细粒度图像识别 [1] 是视觉感知学习的重要研究课题,在智能新经济和工业互联网等方面具有巨大应用价值,且在诸多现实场景已有广泛应用…… 鉴于当前领域内尚缺乏该方面的深度学习开源工具库,南京理工大学魏秀参教授团队用时近一年时间,开发、打磨、完成了 Hawkeye——细粒度图像识别深度学习开源工具库,供相关领域研究人员和工程师参考使用。本文是对 Hawkeye 的详细介绍。
机器之心
2022-12-15
6660
深度学习能否达到人类推理水平?三位图灵奖得主激辩海德堡论坛
85 岁的图灵奖得主 Raj Reddy 参加了最近举行的第九届海德堡获奖者论坛。他发出由衷感叹:「我在人工智能领域工作了近 60 年,没想到这种技术会在有生之年实用化。」
机器之心
2022-12-15
1930
YOLO内卷时期该如何选模型?
机器之心转载 来源:知乎 作者:知乎用户@迪迦奥特曼 YOLO 新版本那么多,到底选哪个? 前不久看到了美团微信公众号上的宣传,更新发布了新版 YOLOv6,还放出了 arxiv 论文,更新了之前的 N/T/S 小模型,也放出了 M 和 L 版本的大模型,论文实验表格多达十几个,看的出来是很用心的做了,YOLO官方也认可了这个起名。 之前本人写了一个 YOLO 合集的文章(迪迦奥特曼:从百度飞桨 YOLOSeries 库看各个 YOLO 模型:https://zhuanlan.zhihu.com/p/550
机器之心
2022-10-08
8070
固定参数的模型有多大潜力?港中文、上海AI Lab等提出高效视频理解框架EVL
机器之心专栏 机器之心编辑部 来自香港中文大学、上海人工智能实验室等机构的研究者提出了高效的视频理解迁移学习框架 EVL,通过固定骨干基础模型的权重,节省了训练计算量和内存消耗。 视觉基础模型近两年取得了瞩目发展。从一方面而言,基于大规模互联网数据的预训练已经给模型预置了大量的语义概念,从而具有良好的泛化性能;但另一方面,为充分利用大规模数据集带来的模型尺寸增长,使得相关模型在迁移到下游任务时面临着低效率问题,尤其是对于需要处理多帧的视频理解模型。 论文链接:https://arxiv.org/abs/2
机器之心
2022-10-08
3290
计算机视觉、自然语言理解、强化学习多个方向,MSRA智能多媒体组招聘实习生
本期我们将为大家介绍MSRA智能多媒体组招聘实习生的相关信息。 作为专业的全球人工智能信息服务平台,机器之心不仅可以提供前沿的科研动态,还能帮你找到合适的工作或进修机会。 本期的招募信息来自MSRA智能多媒体组,欢迎对计算机视觉、自然语言理解、强化学习等方向感兴趣的同学踊跃申请。 组别介绍 我们属于微软亚洲研究院的智能多媒体(Intelligent Multimedia, IM)组。智能多媒体组致力于将机器学习与图像视频分析的过程相结合,设计新一代智能图像视频分析系统。研究方向包括屏幕分析,深度学习,人的行
机器之心
2022-08-25
4250
集成多种YOLO改进点,面向小白科研的YOLO检测代码库YOLOAir
机器之心专栏 机器之心编辑部 YOLOAir 算法代码库是一个基于 PyTorch 的 YOLO 系列目标检测开源工具箱。使用统一模型代码框架、统一应用方式、统一调参,该库包含大量的改进模块,可使用不同网络模块来快速构建不同网络的检测模型。基于 YOLOv5 代码框架,并同步适配 YOLOv5(v6.0/v6.1 更新) 部署生态。用户在使用这个项目之前, 可以先了解 YOLOv5 库。 该项目包含大量的改进方式,并能降低改进难度,改进点包含 Backbone、Neck、Head、注意力机制、IoU 损失
机器之心
2022-08-25
8090
YOLOv7上线:无需预训练,5-160 FPS内超越所有目标检测器
机器之心报道 编辑:小舟、泽南 在 5-160 FPS 范围内速度和精度超过所有已知目标检测器。 在 YOLOv6 推出后不到两个星期,提出 YOLOv4 的团队就发布了更新一代的版本。 本周三,YOLOv7 的论文被提交到了预印版论文平台 arXiv 上,其三位作者 Chien-Yao Wang、Alexey Bochkovskiy 和 Hong-Yuan Mark Liao 是 YOLOv4 的原班人马。 论文链接:https://arxiv.org/abs/2207.02696 GitHub 链接:
机器之心
2022-07-12
10.1K0
同济、阿里的CVPR 2022最佳学生论文奖研究了什么?这是一作的解读
机器之心发布 作者:陈涵晟(同济大学研究生、阿里达摩院研究型实习生) 距离 CVPR 2022 各大奖项公布没多久,来自同济大学研究生、阿里达摩院研究型实习生陈涵晟为我们解读最佳学生论文奖。 本文解读我们获得 CVPR 2022 最佳学生论文奖的工作《EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monocular Object Pose Estimation》。论文研究的问题是基于单张图像估计物体在 3D 空
机器之心
2022-07-01
8380
图神经网络作CV骨干模型,来听听华为诺亚是怎么做的
在计算机视觉领域,骨干网络一直是特征提取的重要部件。从 AlexNet 到 ResNet,卷积网络 CNN 在很长一段时间内一直是视觉任务的标配。近年来,基于注意力机制的 Transformer 和以全连接层为主的 MLP 网络也开始在计算机视觉领域崭露头角。与现有主流 CNN 模型相比,基于 Transformer 或 MLP 的模型在视觉任务上也显示出了良好的性能。 直到现在,关于谁是更好的视觉骨干网络还是一个仍在探索和颇具争议的课题。传统的卷积网络将图像视作一个矩阵或网格,通过滑动窗口对邻域像素点或
机器之心
2022-06-27
7180
图神经网络也能用作CV骨干模型,华为诺亚ViG架构媲美CNN、Transformer
机器之心专栏 机器之心编辑部 华为诺亚实验室的研究员发现图神经网络(GNN)也能做视觉骨干网络。将图像表示为图结构,通过简洁高效的适配,提出一种新型视觉网络架构 ViG,表现优于传统的卷积网络和 Transformer。在 ImageNet 图像识别任务,ViG 在相似计算量情况下 Top-1 正确率达 82.1%,高于 ResNet 和 Swin Transformer。 论文链接:https://arxiv.org/abs/2206.00272 PyTorch 代码:https://github.com
机器之心
2022-06-27
5750
YOLO界再起波澜!mAP 51.4,149FPS,目标检测,一个就够了
机器之心发布 作者:百度飞桨团队 百度飞桨团队发布了 PP-YOLOE,与其他 YOLO 系列算法相比,其具有更强的性能、更丰富灵活的配置方案以及更全硬件支持三大优势。 此前,机器之心报道过的 PaddleDetection 项目再次升级,发布了全新进化版 YOLO 模型——PP-YOLOE,并再次以极佳的性能表现刷新业界性能榜单指标,在目标检测领域引起了广泛关注。  论文地址:https://arxiv.org/abs/2203.16250 项目地址:https://github.com/PaddleP
机器之心
2022-05-17
7710
CVPR 2022 | 结合短期动态、长期一致性,视频伪装物体检测框架,大幅超越SOTA
机器之心专栏 作者:程雪莲、熊欢、范登平、钟怡然等 本文提出了一个用于视频伪装物体分割的方法 SLT-Net,并构建了第一个大规模 VCOD 数据集,MoCA- Mask,该研究入选CVPR 2022。 视频伪装物体检测(Video Camouflaged Object Detection,VCOD)是找出视频中在外观上与背景展现出极高相似性的物体的任务。尽管拥有广泛的应用场景(例如:监控与安防 [25]、自动驾驶 [33, 5]、医学图像分割 [12, 43]、蝗虫检测 [18] 与机器人 [29]),伪
机器之心
2022-05-05
7530
有人一周内清理了PASCAL数据集中的17120张图像,将mAP提高了13%
选自hasty.ai 作者:Vladimir Lyashenko 机器之心编译 编辑:陈萍 干净的数据对于你的 AI 模型的表现有多重要? 有研究称,他们使用一种技术在一周内清理了 PASCAL VOC 2012 数据集中的 17120 张图像,并发现 PASCAL 中 6.5% 的图像有不同的错误(缺失标签、类标签错误等)。他们在创纪录的时间内修复了这些错误,并将模型的性能提高了 13% 的 mAP。 通常情况下,模型性能较差可能是由于训练数据质量不高引起的。即使在 2022 年,由于数据是公司最重要的资
机器之心
2022-04-28
5080
点击加载更多
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档