首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >ARCore或ARKit是如何产生实时视频增强的?

ARCore或ARKit是如何产生实时视频增强的?
EN

Stack Overflow用户
提问于 2017-08-31 14:55:16
回答 1查看 2.1K关注 0票数 4

所以,大约一年前,我对建立自己的增强现实(AR)库很感兴趣。我的目标是能够拍摄某物的视频(任何真正的东西),然后能够在视频中放置增强物(没有真正存在的3D物体)。例如,我可能会拍一段我的客厅的视频,然后,通过这个AR库/工具,我可以添加一个坐在我咖啡桌上的怪物的3D化身。因此,我完全不了解这门学科或计算机视觉,因此,我决定采取以下策略:

  1. 使用三维重建工具/技术(从运动的结构,或SfM)来建立视频中所有东西的三维模型(例如,我的客厅的三维模型)
  2. 分析平面的三维模型(确切地说是三维点云)。
  3. 添加我自己的逻辑来确定哪些对象(3D模型,如Blender文件等)将视频的3D模型放置在哪个区域(例如,站在咖啡桌上的怪物)
  4. 最难的部分是:在视频的每一帧中推断摄像机的方向,然后根据摄像机的指向正确地确定增强(例如怪物)的方向,然后将增强的3D模型“合并”到主要的视频3D模型中。这意味着,当摄像机在我的客厅周围移动时,怪物似乎仍然站在我咖啡桌上的同一个地方。我从来没有想出一个好的解决方案,但我想,如果我能进入第四步,我会找到一些解决办法。

经过几个星期的困难(计算机视觉很难!)我获得了以下工具的管道,可以成功地完成这些工作:

  1. 我能够将视频的样本帧(例如,在我的客厅走动时拍摄的视频)输入到OpenMVG中,并生成一个稀疏的点云层文件/模型。
  2. 然后,我能够将该铺层文件输入到MVE中,并生成一个密集的点云(同样是铺层文件)。
  3. 然后,我将密集的点云和原始帧输入到mvs-变形中,生成我的视频的纹理3D模型。

大约有30%的时间,这条管道运作得很棒!这是我房子前面的模型。你可以看到我的3D前院,我儿子的3D游戏室,甚至还能看到门窗!

大约70%的时间流水线失败,无法辨认的错误,或产生的东西,看上去像抽象的绘画。此外,即使涉及到自动脚本,它也花了大约30分钟的时间来制作最终的3D纹理model...so。

看来Google ARCode苹果ARKit打败了我!这些框架可以从您的智能手机上获取实时视频提要,并完成大约一年前我一直试图完成的任务:实时3D AR。与Pokemon Go非常非常相似(但更先进、更交互式)。拍一段你的客厅的视频,瞧,一个动画怪物正坐在你的咖啡桌上,你可以和它互动。非常酷的东西。

我的问题

我很嫉妒!当然,谷歌和苹果可以雇佣一些最好的个人简历/3D侦察员,但我还是很嫉妒!我很好奇是否有任何核心的AR/CV/3D侦察专家,他们要么了解AR的内部知识,要么对AR的前景了如指掌,以至于他们可以在这里与ARCode或ARKit在幕后谈论什么样的工具/管道/技术。因为我几乎把我的大脑弄碎了,试图自己解决这个问题,而我却惨败了。

  • 我的策略(上面已经解释过)是准确的,还是偏离了基础?(再次:视频->表面分析的3D侦察,->逐帧摄像机分析,模型合并)?
  • 这里有什么样的工具/库/技术?
  • 他们是如何实时完成这一任务的,而如果我的3D侦察器工作正常,则需要处理和生成30+ mins?

提前感谢!

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2017-09-01 08:29:36

我理解你的嫉妒,作为一名计算机视觉工程师,我以前经历过很多次:-)

移动设备上的AR的关键是计算机视觉和惯性跟踪(电话的陀螺仪)的融合。来自苹果的ARKit文档的报价

ARKit使用了一种叫做视觉惯性测定仪的技术.该过程将来自iOS设备的运动感测硬件的信息与对设备摄像机可见的场景的计算机视觉分析相结合。

来自谷歌的ARCore文档的报价

视觉信息与设备IMU的惯性测量相结合,以估计相机相对于世界的姿态(位置和方向)。

这种方法的问题是,你必须知道你的相机和IMU传感器的每一个细节。它们必须校准并同步在一起。难怪这对苹果来说比普通的开发者容易。这也是为什么谷歌只支持几个电话预览ARCore的原因。

票数 4
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/45984479

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档