1张图片！生成360度全景图！斯坦福李飞飞团队推出最新AI模型：ZeroNVS

文章来源：企鹅号 - AI变革指南

你是否曾经想过，如果你有一台能够从任何一张图片中生成360度全景图?

近期，斯坦福李飞飞和谷歌团队推出新的AI模型：ZeroNVS

ZeroNVS是一个由斯坦福大学和谷歌研究团队开发的3D感知扩散模型，它可以从单张真实图片中生成360度全景图，而不需要任何额外的信息或训练数据。

这意味着，你只需要给它一张普通的图片，它就可以让你从任何角度欣赏这个场景，就像你亲自在那里一样。

来，让我们看看效果！

ZeroNVS的原理是什么？

ZeroNVS的核心思想是利用扩散模型来生成新的视角。扩散模型是一种生成式模型，它可以从一个随机噪声开始，逐步恢复出目标图片。

扩散模型的优点是它可以很好地处理复杂的数据分布，而不需要像变分自编码器或生成对抗网络那样设计复杂的网络结构或损失函数。

ZeroNVS的创新之处在于，它不仅可以恢复出原始图片，还可以在恢复的过程中改变图片的视角。为了做到这一点，它需要考虑图片的3D结构，即图片中的物体和背景的深度和形状。

ZeroNVS使用了一个3D感知的编码器，它可以从单张图片中提取出3D特征，并将它们与2D特征结合起来。

然后，它使用了一个相机条件化的参数化和归一化方案，它可以根据目标视角的相机参数，如位置、方向和焦距，来调整3D特征的尺度和方向。

最后，它使用了一个扩散解码器，它可以从噪声中生成新视角的图片，同时保持图片的清晰度和真实度。

ZeroNVS有什么优势？

它是一个零样本的模型，也就是说，它不需要针对特定的数据集进行训练，而是可以直接应用于任何一张真实图片。这使得它具有很强的泛化能力和灵活性，可以处理各种各样的场景，无论是单个物体还是多个物体，无论是室内还是室外，无论是静态还是动态。

它是一个3D感知的模型，也就是说，它可以考虑图片的3D结构，而不是仅仅基于2D的像素变换。这使得它可以生成更加真实和自然的新视角，而不会出现形变或遮挡的问题。

它是一个扩散的模型，也就是说，它可以利用扩散模型的强大的生成能力，而不需要依赖于复杂的网络结构或损失函数。这使得它可以生成更加清晰和细致的新视角，而不会出现模糊或噪声的问题。

ZeroNVS的效果如何？

ZeroNVS的效果非常惊艳，它在DTU数据集上的LPIPS指标达到了0.167，超过了所有的零样本方法，甚至超过了一些专门针对DTU数据集训练的方法。

它还在Mip-NeRF 360数据集上展示了强大的性能，这是一个非常具有挑战性的数据集，它包含了各种各样的真实场景，如城市、自然、室内等。以下是一些ZeroNVS的效果图，你可以从中看到，它可以从单张图片中生成非常真实和自然的360度全景图，而且细节非常清晰和完整。

总结

ZeroNVS是一个用于从单张真实图片生成360度全景图的3D感知扩散模型，它具有零样本、3D感知和扩散的特点，可以生成非常真实和自然的新视角，而不需要任何额外的信息或训练数据。它的应用场景非常广泛，可以用于虚拟现实、增强现实、电子商务、广告、教育、娱乐等领域，为用户提供更加丰富和有趣的体验。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货