前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >使用MediaPipe在移动设备上进行实时3D对象检测

使用MediaPipe在移动设备上进行实时3D对象检测

作者头像
代码医生工作室
发布2020-05-09 10:38:27
2.3K0
发布2020-05-09 10:38:27
举报
文章被收录于专栏:相约机器人相约机器人

作者 | Rajat Sahay

来源 | Medium

编辑 | 代码医生团队

对象检测一直是计算机视觉中研究最广泛的问题之一。作为最基本和最基本的检测形式之一,并且其用途无与伦比,对象检测已在许多基于商业计算机视觉的应用中使用。

但是,最近在早期的监督上已经有了一些启示,这在相对成熟的领域中导致了一系列全新的问题。

具体地,已经进行的大多数研究仅专注于二维物体检测。这意味着围绕检测到的对象绘制的边界框仅是二维的。该领域的大多数研究都包括提高被检测物体的准确性,提高检测速度或结合新的方法和体系结构来检测和跟踪物体的方法。

通过将预测范围扩展到3D,可以捕获现实世界中物体的大小,位置和方向

— Google AI博客

但是,在当今,随着新思想的发展,需要一种方法来更准确地检测和跟踪现实环境中的对象。

为了解决这个问题,Google AI发布了MediaPipe Objectron,这是一种用于日常对象的移动实时3D对象检测管道,该管道还可以检测2D图像中的对象。

https://github.com/google/mediapipe

Objectron在MediaPipe中实现,MediaPipe是一个开放源代码的跨平台框架,用于构建用于处理多模态感知数据的管道,Objectron可以计算对象周围的3D边界框,并在移动设备上实时对其进行定向。

为什么需要3D边界框?

有人可能会辩称2D边界框已经忍受并克服了摆在它们前面的所有挑战,并且3D边界框除了研究建议之外没有其他可行的目的。

尽管2D对象检测已在行业中广泛使用,但3D对象检测现已在市场上崭露头角,许多不同的行业提出了一些想法,这些想法需要对给定对象进行三维视图并利用其空间属性 。

这种方法可以打开一组全新的任务。这些包括但不限于机器人技术,图像检索,增强现实和自动驾驶汽车。

图像上的3D边框示例-Google AI博客

增强现实和3D建模特别吸引了人们的兴趣,最近,Snapchat的Ground Transformation 成为AR世界的热门产品。

这不是公司第一次使用增强现实技术来实现停止展示的应用程序,而且肯定不会是最后一次。随着人工现实随着时间的推移不断发展,已经并且将越来越强调将这种技术用于品牌和广告目的。

宜家的家具展示应用程序就是一个很好的例子,该应用程序将AR用于现实环境中的产品放置。但是,由于相机无法正确缩放数字对象的大小以使其与实际环境完全匹配,因此该领域具有一定的局限性和瓶颈。

3D建模将使用户能够准确捕获对象的大小,方向和位置,这可以为虚拟产品放置和广告工具的进一步发展铺平道路。

通过介绍MediaPipe的Objectron,Google还暗示,未来几年AR渲染将发生重大变化。

在移动应用程序中嵌入ML模型可以减少延迟,提高数据安全性并降低成本。

但是MediaPipe的Objectron是什么?

用最简单的话说,这家技术巨头已经开发出一种方法,可以用作日常生活中使用的对象的移动实时3D对象检测管道。

该管道可检测2D图像中的对象,并通过在新创建的数据集上训练的机器学习(ML)模型来估计其姿势和大小。

— Google AI博客

Objectron在MediaPipe(因此得名)中实现,MediaPipe是用于管道的开发和维护的开源和跨平台框架,从本质上讲,Objectron为用户提供了3D视角,了解如何在日常,真实的环境中进行对象检测。世界环境。

它是如何工作的?

对于我们当中更好奇的人,总是有一种冲动,要在尝试之前先了解事情的发展。如果是愿意确切了解他们在尝试什么的人之一,那么本节适合您!

MediaPipe的Objectron使用本质上可以描述为ML管道来完成其主要任务的东西。它使用单阶段模型从单个RGB图像预测对象的姿态以及物理尺寸和结构。

它的结构主要是基于MobileNetV2的编码器/解码器的结构。它使用多任务学习方法-这只是一个奇特的术语,表示多个学习任务同时运行,并利用了不同任务之间的异同。

https://ai.googleblog.com/2018/04/mobilenetv2-next-generation-of-on.html

形状任务根据可用的地面真相注释的类型预测对象的形状信号。为了进行检测,使用了这些带注释的边界框,目标是将其拟合为高斯分布,并以其峰值为对象中心来预测此分布。

用于3D对象检测的后处理的网络体系结构—由Google AI博客提供

为了获得3D边界框,Objectron使用已建立的姿势估计系统- 有效的透视n点估计 -该系统可以在没有对象尺寸预先信息的情况下恢复对象的3D边界框。

该模型足够轻巧,可以在移动设备上实时运行(在Adreno 650移动GPU上为26 FPS )

— Google AI博客

MediaPipe中的检测和跟踪

不要忘记MediaPipe在整个项目中扮演的非常重要的角色。根据以上文字,可能不清楚MediaPipe在何处起作用。简而言之,MediaPipe本质上负责该项目的实时部分。

作为运行在边缘设备上的复杂模型,当将其应用于每个帧时,可能会发生抖动和滞后(主要是由于预测的3D边界框的含糊性)。该框架将减轻在每个输入帧上运行模型的需求。这使研究人员可以应用更重,更准确的模型,而不会出现输出延迟的情况。

为了确保进一步的效率和确定性,研究人员决定每隔几帧就运行一次模型推断,并随时间推移进行预测并进行跟踪。每次进行新的预测时,结果都会根据重叠区域与上一个预测合并。

您不必成为机器学习专家即可发挥其潜力。将这些专业知识留给我们。使用Fritz AI轻松构建可以看到,听到,感知和思考的移动应用程序。

https://www.fritz.ai/product/platform.html?utm_campaign=buildmodels5&utm_source=heartbeat

将在哪里使用?

现在已经熟悉了Objectron的工作原理,一个显而易见的问题出现了:它将在哪里使用?

就目前而言,大多数人都预测MediaPipe的Objectron或多或少是Google对AR渲染未来的暗示。具有3D对象检测功能的Objectron将在AR领域产生巨大影响。

此外,该公司的新颖方法AR综合数据生成可以将虚拟对象放置到保存AR会话数据的场景中。它还导致了高质量合成数据与现实环境的无缝集成。

https://heartbeat.fritz.ai/synthetic-data-a-bridge-over-the-data-moat-29f392a52f27

现实中的AR综合数据生成-Google AI博客

Google在MediaPipe的Objectron的帮助下,还可以帮助照相机摆姿势,检测平面表面以及对环境中的光照条件进行粗略估计,所有这些都可用于生成不仅在物理上可能而且在物理上可行的位置。以更现实的方式匹配他们要适应的场景。

毕竟,AR将帮助公司充分利用这些元素的更具沉浸性和视觉吸引力的方面,以制定新的营销策略。

由于具有如此出色的初始用法,因此3D建模有望使虚拟对象放置变得更加智能和更具吸引力,并且在产品放置的边缘视觉领域将获得类似的不断发展。

想尝试一下吗?

Google已发布了一个端到端的演示移动应用程序,以鼓励研究人员(或任何有创新想法的人!)使用此技术进行实验和原型设计。

毕竟,最好的主意可以来自任何地方。MediaPipe中的设备上ML管道允许用户为两类(鞋子和椅子)采样训练有素的模型。该应用程序允许用户使用带有GPU加速功能的TensorFlow Lite实时在其设备上实现这些模型并查看3D边界框。

用户可以下载Objectron的arm64版本用于鞋子和椅子。

https://drive.google.com/open?id=1S0K4hbWt3o31FfQ4QU3Rz7IHrvOUMx1d

https://drive.google.com/file/d/1MM8K-13bXLCVS1EHQ-KgkVyEahEPrKej/view

要构建和安装用于鞋子的Objectron:

bazel build -c opt --config android_arm64 mediapipe / examples / android / src / java / com / google / mediapipe / apps / objectdetection3d:objectdetection3d

要构建和安装Objectron椅子:

bazel build -c opt --define chair = true --config android_arm64 mediapipe / examples / android / src / java / com / google / mediapipe / apps / objectdetection3d:objectdetection3d

现在已经构建了应用程序,我们可以通过运行以下命令将其安装在Android设备上:

adb install bazel-bin/mediapipe/examples/android/src/java/com/google/mediapipe/apps/objectdetection3d/objectdetection3d.apk

更多信息可以在其GitHub页面上找到。

https://github.com/google/mediapipe/tree/master/mediapipe/docs

下一步是什么?

通过与世界分享这一点,很显然,更广泛的研发界无疑将产生新的和创新的想法,用例,并推动进一步的研究工作以改进基础模型。

Google AI在其博客上宣布计划扩展其模型以包括许多不同的类别,并进一步提高该模型在设备上的性能。对于所有有兴趣改善设备上机器学习和增强现实体验的开发人员来说,这一进展都值得关注。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2020-04-23,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 相约机器人 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
图像处理
图像处理基于腾讯云深度学习等人工智能技术,提供综合性的图像优化处理服务,包括图像质量评估、图像清晰度增强、图像智能裁剪等。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档