前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >CVPR2024 | YOLO-World 检测一切对象模型

CVPR2024 | YOLO-World 检测一切对象模型

作者头像
OpenCV学堂
发布2024-05-11 10:59:32
2430
发布2024-05-11 10:59:32
举报

模型概述

YOLO-World模型引入了先进的实时 UltralyticsYOLOv8对象检测模型,成为了开放词汇检测任务的最新SOTA实时方法。YOLO-World模型可根据提示与描述性文本实现检测图像中的任何物体。YOLO-World 可大幅降低计算要求,同时具有杰出的性能指标,是新一代的开放动词对象检测模型。

模型结构主要由两个部分组成分别是实现文本编码与解码的Clip结构模型与实现图像特征提取支持对象检测YOLOv8系列网络模型。

对比传统的深度学习YOLO系列对象检测网络与传统的开发动词对象检测,YOLO-World的优势如下图所示:

其中可参数化视觉语言PAN模块,作者对之前的VLP结构完成了两点改进分别是文本指南CSP模块与图像池化注意力模块,实现了图像特征与文本嵌入的高度融合。

Text-guided CSPLayer与Image-Pooling Attention 结构如下:

完成实现YOLO-World预训练模型在大规模对象检测、图像文本数据集训练策略方面主要有区域文本对比损失与基于自动标注实现的伪标签策略。

实验对比

对比其它的开放动词对象检测模型,YOLO-World参数更少,速度更快,显示出非常好的检测能力与推理速度。

安装与测试

YOLOv8 + CLIP版本的YOLO-World模型已经发布,而且被ultralytics框架所支持,首先下载yolov8s-worldv2.pt模型,然后直接通过下面的代码即可推理测试:

代码语言:javascript
复制
代码语言:javascript
复制
# Initialize a YOLO-World model
model = YOLO('yolov8s-worldv2.pt')  # or choose yolov8m/l-world.pt

# Define custom classes
model.set_classes(["elephant"])

# Execute prediction for specified categories on an image
results = model.predict('D:/bird_test/elephant2.png')

# Show results
results[0].show()

运行结果如下 (零样本训练,直接通过文本提示):

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2024-05-10,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 OpenCV学堂 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
腾讯云服务器利旧
云服务器(Cloud Virtual Machine,CVM)提供安全可靠的弹性计算服务。 您可以实时扩展或缩减计算资源,适应变化的业务需求,并只需按实际使用的资源计费。使用 CVM 可以极大降低您的软硬件采购成本,简化 IT 运维工作。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档