腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

机器之心

专栏作者

8931

文章

6275862

阅读量

277

订阅数

CVPR 2023 | 谷歌、MIT提出统一框架MAGE：表征学习超MAE，无监督图像生成超越 Latent Diffusion

图像识别框架论文模型重构

机器之心专栏机器之心编辑部在一篇 CVPR 2023 论文中，来自 MIT 和谷歌的研究人员提出了一种全新的框架MAGE，同时在图像识别和生成两大任务上实现了 SOTA。识别和生成是人工智能领域中的两大核心任务，如果能将二者合并到一个统一的系统中，这两个任务应该能实现互补。事实上，在自然语言处理中，像 BERT [1] 这样的模型不仅能够生成高质量的文本，还能够提取文本中的特征。然而，在计算机视觉领域，目前的图像生成模型和识别模型大多是分开进行训练，没有充分利用这两个任务的协同作用。这主要是由于图

2023-03-29

3430

「十亿像素」引领视觉智能技术变革，2022 GigaVision挑战赛圆满落幕

人工智能神经网络深度学习图像识别渲染

机器之心原创作者：蛋酱在十亿像素级数据平台的支撑下，GigaVision 系列赛事秉承「以赛促研、以赛促用」的理念，将持续推动更多前沿性、原创性视觉智能技术的突破。 2012 年，深度学习在 ImageNet 图像挑战赛中取得了巨大的突破，被广泛认为是第三次人工智能革命的标志性事件。以此为开端，十多年间，从人脸识别、跟踪到动作识别，围绕各类视觉智能任务的技术都取得了显著的进展，人工智能理论与技术的大变革时代终于到来。 2017 年，国务院发布《新一代人工智能发展规划》，描绘了中国人工智能未来发展的宏伟

2023-02-28

5650

谷歌复用30年前经典算法，CV引入强化学习，网友：视觉RLHF要来了？

编程算法强化学习图像处理图像识别

机器之心报道机器之心编辑部模型预测和预期使用之间存在错位，不利于 CV 模型的部署，来自谷歌等机构的研究者用强化学习技术的奖励函数，从而改善了计算机视觉任务。 ChatGPT 的火爆有目共睹，而对于支撑其成功背后的技术，监督式的指令微调以及基于人类反馈的强化学习至关重要。这些技术也在逐渐扩展到其他 AI 领域，包括计算机视觉（CV）。我们知道，在处理计算机视觉中的复杂输出时，成功的主要标准不在于模型对训练目标的优化程度，而在于预测能力与任务的吻合程度，即模型在预期用途上的表现效果。为了追求这种一致性

2023-02-27

6010

首个目标检测扩散模型，比Faster R-CNN、DETR好，从随机框中直接检测

图像识别机器学习神经网络深度学习人工智能

扩散模型（ Diffusion Model ）作为深度生成模型中的新 SOTA，已然在图像生成任务中超越了原 SOTA：例如 GAN，并且在诸多应用领域都有出色的表现，如计算机视觉，NLP、分子图建模、时间序列建模等。

2022-12-16

6780

7 Papers & Radios | Stable Diffusion采样速度翻倍；MIT解决神经网络百年难题

https 网络安全编程算法图像识别神经网络

论文 1：Closed-form Continuous-time Neural Networks

2022-12-16

4130

用CNN做基础模型，可变形卷积InternImage实现检测分割新纪录！

图像处理机器学习深度学习人工智能图像识别

近年来大规模视觉 Transformer 的蓬勃发展推动了计算机视觉领域的性能边界。视觉 Transformer 模型通过扩大模型参数量和训练数据从而击败了卷积神经网络。来自上海人工智能实验室、清华、南大、商汤和港中文的研究人员总结了卷积神经网络和视觉 Transformer 之间的差距。从算子层面看，传统的 CNNs 算子缺乏长距离依赖和自适应空间聚合能力；从结构层面看，传统 CNNs 结构缺乏先进组件。

2022-12-16

5980

NeurIPS 2022 | 四分钟内就能训练目标检测器，商汤基模型团队是怎么做到的？

编程算法图像识别神经网络机器学习深度学习

本文提出了一种大批量训练算法 AGVM (Adaptive Gradient Variance Modulator)，不仅可以适配于目标检测任务，同时也可以适配各类分割任务。AGVM 可以把目标检测的训练批量大小扩大到 1536，帮助研究人员四分钟训练 Faster R-CNN，3.5 小时把 COCO 刷到 62.2 mAP，均打破了目标检测训练速度的世界纪录。

2022-12-16

3920

基于PyTorch、易上手，细粒度图像识别深度学习工具库Hawkeye开源

https 网络安全图像识别网站

细粒度图像识别 [1] 是视觉感知学习的重要研究课题，在智能新经济和工业互联网等方面具有巨大应用价值，且在诸多现实场景已有广泛应用…… 鉴于当前领域内尚缺乏该方面的深度学习开源工具库，南京理工大学魏秀参教授团队用时近一年时间，开发、打磨、完成了 Hawkeye——细粒度图像识别深度学习开源工具库，供相关领域研究人员和工程师参考使用。本文是对 Hawkeye 的详细介绍。

2022-12-15

6660

深度学习能否达到人类推理水平？三位图灵奖得主激辩海德堡论坛

深度学习人工智能神经网络图像识别 html

85 岁的图灵奖得主 Raj Reddy 参加了最近举行的第九届海德堡获奖者论坛。他发出由衷感叹：「我在人工智能领域工作了近 60 年，没想到这种技术会在有生之年实用化。」

2022-12-15

1930

YOLO内卷时期该如何选模型？

网络安全 https 图像识别 github git

机器之心转载来源：知乎作者：知乎用户@迪迦奥特曼 YOLO 新版本那么多，到底选哪个？前不久看到了美团微信公众号上的宣传，更新发布了新版 YOLOv6，还放出了 arxiv 论文，更新了之前的 N/T/S 小模型，也放出了 M 和 L 版本的大模型，论文实验表格多达十几个，看的出来是很用心的做了，YOLO官方也认可了这个起名。之前本人写了一个 YOLO 合集的文章（迪迦奥特曼：从百度飞桨 YOLOSeries 库看各个 YOLO 模型：https://zhuanlan.zhihu.com/p/550

2022-10-08

8070

固定参数的模型有多大潜力？港中文、上海AI Lab等提出高效视频理解框架EVL

图像识别迁移学习

机器之心专栏机器之心编辑部来自香港中文大学、上海人工智能实验室等机构的研究者提出了高效的视频理解迁移学习框架 EVL，通过固定骨干基础模型的权重，节省了训练计算量和内存消耗。视觉基础模型近两年取得了瞩目发展。从一方面而言，基于大规模互联网数据的预训练已经给模型预置了大量的语义概念，从而具有良好的泛化性能；但另一方面，为充分利用大规模数据集带来的模型尺寸增长，使得相关模型在迁移到下游任务时面临着低效率问题，尤其是对于需要处理多帧的视频理解模型。论文链接：https://arxiv.org/abs/2

2022-10-08

3290

计算机视觉、自然语言理解、强化学习多个方向，MSRA智能多媒体组招聘实习生

强化学习图像识别自动化 NLP 服务

本期我们将为大家介绍MSRA智能多媒体组招聘实习生的相关信息。作为专业的全球人工智能信息服务平台，机器之心不仅可以提供前沿的科研动态，还能帮你找到合适的工作或进修机会。本期的招募信息来自MSRA智能多媒体组，欢迎对计算机视觉、自然语言理解、强化学习等方向感兴趣的同学踊跃申请。组别介绍我们属于微软亚洲研究院的智能多媒体（Intelligent Multimedia, IM）组。智能多媒体组致力于将机器学习与图像视频分析的过程相结合，设计新一代智能图像视频分析系统。研究方向包括屏幕分析，深度学习，人的行

2022-08-25

4250

集成多种YOLO改进点，面向小白科研的YOLO检测代码库YOLOAir

神经网络深度学习人工智能图像识别编程算法

机器之心专栏机器之心编辑部 YOLOAir 算法代码库是一个基于 PyTorch 的 YOLO 系列目标检测开源工具箱。使用统一模型代码框架、统一应用方式、统一调参，该库包含大量的改进模块，可使用不同网络模块来快速构建不同网络的检测模型。基于 YOLOv5 代码框架，并同步适配 YOLOv5(v6.0/v6.1 更新) 部署生态。用户在使用这个项目之前, 可以先了解 YOLOv5 库。该项目包含大量的改进方式，并能降低改进难度，改进点包含 Backbone、Neck、Head、注意力机制、IoU 损失

2022-08-25

8090

YOLOv7上线：无需预训练，5-160 FPS内超越所有目标检测器

机器之心报道编辑：小舟、泽南在 5-160 FPS 范围内速度和精度超过所有已知目标检测器。在 YOLOv6 推出后不到两个星期，提出 YOLOv4 的团队就发布了更新一代的版本。本周三，YOLOv7 的论文被提交到了预印版论文平台 arXiv 上，其三位作者 Chien-Yao Wang、Alexey Bochkovskiy 和 Hong-Yuan Mark Liao 是 YOLOv4 的原班人马。论文链接：https://arxiv.org/abs/2207.02696 GitHub 链接：

2022-07-12

10.1K0

同济、阿里的CVPR 2022最佳学生论文奖研究了什么？这是一作的解读

图像处理图像识别

机器之心发布作者：陈涵晟（同济大学研究生、阿里达摩院研究型实习生）距离 CVPR 2022 各大奖项公布没多久，来自同济大学研究生、阿里达摩院研究型实习生陈涵晟为我们解读最佳学生论文奖。本文解读我们获得 CVPR 2022 最佳学生论文奖的工作《EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monocular Object Pose Estimation》。论文研究的问题是基于单张图像估计物体在 3D 空

2022-07-01

8380

图神经网络作CV骨干模型，来听听华为诺亚是怎么做的

云直播图像处理神经网络图像识别数据结构

在计算机视觉领域，骨干网络一直是特征提取的重要部件。从 AlexNet 到 ResNet，卷积网络 CNN 在很长一段时间内一直是视觉任务的标配。近年来，基于注意力机制的 Transformer 和以全连接层为主的 MLP 网络也开始在计算机视觉领域崭露头角。与现有主流 CNN 模型相比，基于 Transformer 或 MLP 的模型在视觉任务上也显示出了良好的性能。直到现在，关于谁是更好的视觉骨干网络还是一个仍在探索和颇具争议的课题。传统的卷积网络将图像视作一个矩阵或网格，通过滑动窗口对邻域像素点或

2022-06-27

7180

图神经网络也能用作CV骨干模型，华为诺亚ViG架构媲美CNN、Transformer

图像处理图像识别神经网络机器学习深度学习

机器之心专栏机器之心编辑部华为诺亚实验室的研究员发现图神经网络（GNN）也能做视觉骨干网络。将图像表示为图结构，通过简洁高效的适配，提出一种新型视觉网络架构 ViG，表现优于传统的卷积网络和 Transformer。在 ImageNet 图像识别任务，ViG 在相似计算量情况下 Top-1 正确率达 82.1%，高于 ResNet 和 Swin Transformer。论文链接：https://arxiv.org/abs/2206.00272 PyTorch 代码：https://github.com

2022-06-27

5750

YOLO界再起波澜！mAP 51.4，149FPS，目标检测，一个就够了

神经网络人工智能图像识别 https 网络安全

机器之心发布作者：百度飞桨团队百度飞桨团队发布了 PP-YOLOE，与其他 YOLO 系列算法相比，其具有更强的性能、更丰富灵活的配置方案以及更全硬件支持三大优势。此前，机器之心报道过的 PaddleDetection 项目再次升级，发布了全新进化版 YOLO 模型——PP-YOLOE，并再次以极佳的性能表现刷新业界性能榜单指标，在目标检测领域引起了广泛关注。论文地址：https://arxiv.org/abs/2203.16250 项目地址：https://github.com/PaddleP

2022-05-17

7710

CVPR 2022 | 结合短期动态、长期一致性，视频伪装物体检测框架，大幅超越SOTA

访问管理数据分析图像识别机器学习神经网络

机器之心专栏作者：程雪莲、熊欢、范登平、钟怡然等本文提出了一个用于视频伪装物体分割的方法 SLT-Net，并构建了第一个大规模 VCOD 数据集，MoCA- Mask，该研究入选CVPR 2022。视频伪装物体检测（Video Camouflaged Object Detection，VCOD）是找出视频中在外观上与背景展现出极高相似性的物体的任务。尽管拥有广泛的应用场景（例如：监控与安防 [25]、自动驾驶 [33, 5]、医学图像分割 [12, 43]、蝗虫检测 [18] 与机器人 [29]），伪

2022-05-05

7530

有人一周内清理了PASCAL数据集中的17120张图像，将mAP提高了13%

数据分析图像识别

选自hasty.ai 作者：Vladimir Lyashenko 机器之心编译编辑：陈萍干净的数据对于你的 AI 模型的表现有多重要？有研究称，他们使用一种技术在一周内清理了 PASCAL VOC 2012 数据集中的 17120 张图像，并发现 PASCAL 中 6.5% 的图像有不同的错误（缺失标签、类标签错误等）。他们在创纪录的时间内修复了这些错误，并将模型的性能提高了 13% 的 mAP。通常情况下，模型性能较差可能是由于训练数据质量不高引起的。即使在 2022 年，由于数据是公司最重要的资

2022-04-28

5080

点击加载更多

社区活动

腾讯技术创作狂欢月

“码”上创作 21 天，分 10000 元奖品池！

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态