前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >CV领域不断突破,原创成果连连!音频领域初探自带光环!OpenMMLab季报报告请收好

CV领域不断突破,原创成果连连!音频领域初探自带光环!OpenMMLab季报报告请收好

作者头像
OpenMMLab 官方账号
发布2024-01-10 14:02:41
2090
发布2024-01-10 14:02:41
举报
文章被收录于专栏:OpenMMLabOpenMMLab

时光荏苒,岁月如梭,不知不觉,我们又一起走过了 2023 年。在刚过去的三个月里,OpenMMLab 又攒了哪些“瓷器活儿”,各个算法库进行了哪些重大更新?社区里开展了哪些精彩的活动呢?现在我们就来向社区的小伙们报告啦!

01、核心进展

Beyond Vision!

综合音频合成项目 Amphion 重磅发布

OpenMMLab 首次涉足音频与语音领域,联合香港中文大学(深圳)数据科学学院武执政副教授团队开源了综合音频生成项目 Amphion(安菲翁)。该系统旨在打造一个面向科研群体及刚进入或想要进入该领域的工程师的,集语音合成及转换、歌声合成及转换、音效及音乐生成等多功能为一体的开源平台。

项目地址:

https://github.com/open-mmlab/Amphion

MM-Grounding-DINO: 轻松涨点,

数据到评测全面开源

Grounding DINO 是一个统一了 2d 开放词汇目标检测和 Phrase Grounding 的检测预训练模型,应用广泛,但是其训练部分并未开源,为此我们提出了 MM-Grounding-DINO。其不仅作为 Grounding DINO 的开源复现版,MM-Grounding-DINO 基于重新构建的数据类型出发,在探索了不同数据集组合和初始化策略基础上实现了 Grounding DINO 的性能极大提升,并且从多个维度包括 OOD、REC、Phrase Grounding、OVD 和 Finetune 等方面进行评测,充分挖掘 Grounding 预训练优缺点,希望能为后续工作提供启发。

技术报告:

https://arxiv.org/abs/2401.02361

项目地址:

https://github.com/open-mmlab/mmdetection/tree/main/configs/mm_grounding_dino

RTMO & RTMW:

多类场景人体姿态估计新 SOTA

在人体姿态估计方向,MMPose 带来了 2 项重量级算法更新:

单阶段实时姿态估计算法 RTMO:结合了坐标回归策略与 YOLOX 检测框架,克服了现有单阶段人体姿态估计模型难以同时兼顾精度与速度的困难。RTMO 具有以下优势:

  • 在密集的多人场景中精度领先,在 CrowdPose 和 OCHuman 数据集上取得最佳精度
  • RTMO-L 模型推理速度达到140+ FPS(GPU),且不受画面中人数影响,在人群密集场景中优势明显
  • 作为端到端的单阶段模型,无需额外的人体检测器,使用流程简单方便

RTMO 模型效果展示

新版全身 133 点姿态估计模型 RTMW:在上一版本基础上引入了 DWPose 蒸馏方案,以更小的参数量达到 COCO-Wholebody SOTA 精度;同时对手部关键点精度做了专门优化,非常适合应用于人机交互、可控图像视频生成等场景。

RTMW 模型效果展示

PowerPaint:

第一个高质量的通用图像补全模型

作为第一个高质量通用图像补全模型,PowerPaint 在一个模型中同时支持增加物体、删除物体、AI 扩图等多种不同的图像补全功能。在 PhotoShop Generative Fill 功能中能体验到的,PowerPaint 都支持,而且免费开源。同时,PowerPaint 兼容 ControlNet 生态,可搭配使用。

项目地址:

https://github.com/open-mmlab/mmagic/tree/main/projects/powerpaint

在线 demo:

https://openxlab.org.cn/apps/detail/rangoliu/PowerPaint

PIA: 私人动画师, 让你的图像动起来!

PIA 通过训练可插拔的条件编码模块,能有效结合帧间相似性信息,生成忠于给定条件帧和文本提示词的视频结果。目前 PIA 支持 1024x1024 的图像到视频的生成,只需要 16G 显存。

项目地址:

https://github.com/open-mmlab/PIA

在线 demo(快来找假期彩蛋):

https://openxlab.org.cn/apps/detail/zhangyiming/PiaPia

02、算法库重要更新

MMEngine

MMEngine 新版本提供了更全面的大模型训练支持,以及多项易用性提升:

  • 支持大模型训练框架 ColossalAI 以及 activation checkpointing 策略
  • 支持三个可视化框架,Neptune,DVCLive 和 Aim
  • 发布 mmengine-lite 包,精简第三方库依赖

MMDetection

MMDetection 新版本带来了多项重要的算法更新:

  • 全新开源 MM-Grounding DINO,通过探索不同数据组合和初始化策略实现了性能的大幅提升,同时提供了从数据到评测的完整开源流程
  • 新增了 RTMDet-L 的 Swin-B 和 ConvNeXt-B 骨干网络 (@okotaku)
  • GLIP 支持了 ODinW 和 Phrase Grounding 等的评测

MMPose

MMPose 新版本更新了自研算法 RTMO/RTMW,同时包括多项新算法和数据集支持:

  • 开源 RTMO,在多人姿态估计任务上达到 SOTA 性能的实时单阶段姿态估计模型
  • RTMW 新增了 RTMW-m, RTMW-l 等多个尺寸的模型,满足不同应用场景
  • 支持了 PoseAnything 的推理,实现开放姿态检测
  • 支持了暗光人体姿态数据集 ExLPose、3D 全身关键点数据集 H3WB

MMDetection3D

MMDetection3D 新版本带来了多项重要更新:

  • 重构 Waymo 数据集,支持 单目/BEV 3D 目标检测, 加速数据集预处理、启动、验证时间。发布新版本 Waymo-mini,帮助社区快速上手 Waymo 与模型调试
  • 在 Waymo 数据集上,支持了 multi-view FCOS3D++ (BEV) / PGD (单目) 等基于图像的 3D 目标检测任务
  • 支持了 DSVT ,是目前 LiDAR-based 在 Waymo 数据集上的 SOTA 模型
  • 支持了 Nerf-Det, 将 Nerf 用于辅助检测模型的室内场景 3D 目标检测模型

MMPreTrain

MMPretrain 新版本支持了 LLaVA 1.5 多模态模型。

MMDeploy

MMDeploy 新特性包括:

  • 支持 RTMO 系列关键点检测模型的部署
  • 支持 CondInst 实例分割模型的部署
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-01-08,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 OpenMMLab 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
语音合成
语音合成(Text To Speech,TTS)满足将文本转化成拟人化语音的需求,打通人机交互闭环。提供多场景、多语言的音色选择,支持 SSML 标记语言,支持自定义音量、语速等参数,让发音更专业、更符合场景需求。语音合成广泛适用于智能客服、有声阅读、新闻播报、人机交互等业务场景。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档