前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >用于增强现实的实时可穿带目标检测:基于YOLOv8进行ONNX转换和部署

用于增强现实的实时可穿带目标检测:基于YOLOv8进行ONNX转换和部署

作者头像
计算机视觉研究院
发布2023-08-23 13:21:48
6460
发布2023-08-23 13:21:48
举报

从此不迷路

计算机视觉研究院

Column of Computer Vision Institute

今天给大家介绍了一种在增强现实(AR)环境中使用机器学习(ML)进行实时目标检测的软件体系结构。

01

前景概要

我们的方法使用了最近最先进的YOLOv8网络,该网络在Microsoft HoloLens 2头戴式显示器(HMD)上运行。这项研究背后的主要动机是通过可穿戴、免提的AR平台,应用先进的ML模型来增强感知和情景感知。我们展示了YOLOv8模型的图像处理流水线,以及在耳机的资源有限的边缘计算平台上使其实时的技术。实验结果表明,我们的解决方案在不需要将任务卸载到云或任何其他外部服务器的情况下实现了实时处理,同时在通常的mAP度量和测量的定性性能方面保持了令人满意的准确性。

02

背景&动机

属于沉浸式技术类别的增强现实(AR)技术通过在用户视野(FoV)中叠加数字内容,提供了将数字伪像与物理环境融合的能力(如下图)。

目前,在智能手机或平板电脑等移动设备上运行的流行AR应用程序可以通过机器学习(ML)进一步增强。得益于这种方法,我们可以在视频和图像数据上包括基于视觉的目标检测和跟踪特征。然而,移动AR解决方案有很大的局限性,例如相对较小的FoV受到屏幕画布的限制或需要手动控制。后者缩小了我们可以成功部署AR的潜在场景,如手动组装、设备修复任务或老年人使用AR增强剂。在这种情况下,用户不仅能够自由移动双手,而且能够迅速改变无约束的FoV或身体姿势,这对于安全问题和任务完成至关重要。

可穿戴智能头戴式显示器(HMD)的替代技术规避了这些警告。AR耳机,如被广泛认为是最先进的Microsoft HoloLens 2(HL2),提供免提AR体验。不幸的是,HL2和其他类似的耳机并不能为基于ML的处理提供令人满意的支持,这可以增强用户与环境交互的能力。因此,在耳机的边缘计算平台中运行板载实时ML模型对于开发新的AR应用领域至关重要。

我们解决了HL2上的实时对象检测问题,包括最新的YOLOv8框架。我们专注于定义必要的步骤,以实现板载ML模型所需的图像处理帧速率,同时确定HL2计算平台的约束条件。克服这些限制使得能够在耳机上使用广泛可用的ML算法。我们还相信,AR开发人员可以利用我们在YOLOv8 for HL2上的工作来创建新的应用程序,扩展该耳机的当前用例。

03

新框架设计

整体的思路如下图所示。我们首先为HL2准备YOLOv8神经网络模型。这些模型可以选择性地重新训练(微调)以包括不同的检测类别。下一步涉及将模型导出为开放神经网络交换(ONNX)格式。然后,Unity引擎中的Barracuda库使用该模型对HL2执行目标检测,并提供检测到的对象的可视化。我们决定使用Unity平台,因为它是AR和VR(虚拟现实)研究中使用最广泛的软件框架之一。

用于ML推理的Barracuda库

检测管道的神经网络部分基于Barracuda库。它是Unity开发的一个开源库,用于在游戏引擎中使用神经网络。它支持最常见的深度学习层,并提供GPU和CPU推理引擎。通过使用ONNX格式加载预训练的神经网络,确保了对不同机器学习库的跨框架支持。它实现了不同ML框架之间的互操作性,提供了一组用于深度学习的标准操作。

模型准备

在线操作中使用的每个模型都可以使用相同的管道进行准备。我们将PyTorch序列化的.pt文件中的每个模型导出为ONNX格式。由于当前的Barracuda版本支持高版本9的ONNX深度学习操作(opset),因此导出具有正确opset标志的模型至关重要。除了导出之外,还可以使用ONNX简化工具缩小模型。该操作使用常数折叠合并冗余运算符,从而加快推理速度。我们成功测试了导出和部署公开可用的原始YOLOv8目标检测模型。此外,我们可以为任何具有足够数据的自定义类训练YOLOv8,同时遵循对自定义数据集进行模型微调的指导原则。

HL2上的目标检测流水线

我们提出了用于HL2的机载实时YOLO对象检测的通用流水线如上图所示。

04

实验

不同检测模型配置的性能如下图所示mAP@50和mAP@50-95对IoU阈值范围内的性能进行平均。所获得的结果表明,当使用较小的模型时,推理性能会显著下降。

除了网络的大小之外,另一种可能性是减小输入图像的大小,因为它直接影响推理时间。对于不同的图像输入大小,我们获得的结果如上图所示。

所提出的实时YOLOv8n在使用160×160输入图像大小时的性能

© THE END

转载请联系本公众号获得授权

往期推荐

🔗

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2023-08-10,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 计算机视觉战队 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
边缘可用区
腾讯云边缘可用区(TencentCloud Edge Zone,TEZ)是腾讯云的本地扩展,适用于解决计算、存储和服务可用性问题。腾讯云边缘可用区可为您带来云的诸多优势,例如弹性、可扩展性和安全性。借助腾讯云边缘可用区,您可以在靠近最终用户的地理位置运行对延迟敏感的应用程序,基本消除延迟问题。腾讯云边缘可用区提供与中心节点一致的体验,助力业务下沉,具备更低延时、更广覆盖、更少成本等特点。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档