所以,大约一年前,我对建立自己的增强现实(AR)库很感兴趣。我的目标是能够拍摄某物的视频(任何真正的东西),然后能够在视频中放置增强物(没有真正存在的3D物体)。例如,我可能会拍一段我的客厅的视频,然后,通过这个AR库/工具,我可以添加一个坐在我咖啡桌上的怪物的3D化身。因此,我完全不了解这门学科或计算机视觉,因此,我决定采取以下策略:
经过几个星期的困难(计算机视觉很难!)我获得了以下工具的管道,可以成功地完成这些工作:
大约有30%的时间,这条管道运作得很棒!这是我房子前面的模型。你可以看到我的3D前院,我儿子的3D游戏室,甚至还能看到门窗!

大约70%的时间流水线失败,无法辨认的错误,或产生的东西,看上去像抽象的绘画。此外,即使涉及到自动脚本,它也花了大约30分钟的时间来制作最终的3D纹理model...so。
看来Google ARCode和苹果ARKit打败了我!这些框架可以从您的智能手机上获取实时视频提要,并完成大约一年前我一直试图完成的任务:实时3D AR。与Pokemon Go非常非常相似(但更先进、更交互式)。拍一段你的客厅的视频,瞧,一个动画怪物正坐在你的咖啡桌上,你可以和它互动。非常酷的东西。
我的问题
我很嫉妒!当然,谷歌和苹果可以雇佣一些最好的个人简历/3D侦察员,但我还是很嫉妒!我很好奇是否有任何核心的AR/CV/3D侦察专家,他们要么了解AR的内部知识,要么对AR的前景了如指掌,以至于他们可以在这里与ARCode或ARKit在幕后谈论什么样的工具/管道/技术。因为我几乎把我的大脑弄碎了,试图自己解决这个问题,而我却惨败了。
提前感谢!
发布于 2017-09-01 08:29:36
我理解你的嫉妒,作为一名计算机视觉工程师,我以前经历过很多次:-)
移动设备上的AR的关键是计算机视觉和惯性跟踪(电话的陀螺仪)的融合。来自苹果的ARKit文档的报价
ARKit使用了一种叫做视觉惯性测定仪的技术.该过程将来自iOS设备的运动感测硬件的信息与对设备摄像机可见的场景的计算机视觉分析相结合。
来自谷歌的ARCore文档的报价
视觉信息与设备IMU的惯性测量相结合,以估计相机相对于世界的姿态(位置和方向)。
这种方法的问题是,你必须知道你的相机和IMU传感器的每一个细节。它们必须校准并同步在一起。难怪这对苹果来说比普通的开发者容易。这也是为什么谷歌只支持几个电话预览ARCore的原因。
https://stackoverflow.com/questions/45984479
复制相似问题