来源 | NVIDIA
编辑 | 代码医生团队
3D计算机视觉和AI的研究工作像两个摩天大楼一样并排发展。但是这些巨大的塔之间的旅程涉及爬上和爬下数十个楼梯间。
为了弥合这种鸿沟,NVIDIA今天发布了kaolin,只需几步,就可以将3D模型移入神经网络领域。
作为PyTorch库实现的,kaolin可以简化为深度学习准备3D模型的工作,从300行代码减少到只有5行。
复杂的3D数据集可以加载到机器学习框架中,无论它们如何表示或呈现。
这样的工具可以使机器人,自动驾驶汽车,医学成像和虚拟现实等领域的研究人员受益。
对3D模型的兴趣正在蓬勃发展,kaolin可以产生重大影响。在线存储库已经拥有许多3D数据集,这在一定程度上要归功于大约3千万个可捕捉3D图像的深度相机,并且现在在全球范围内,从实验室到客厅都在使用。
迄今为止,研究人员缺乏使这些模型可以与深度学习工具配合使用的良好工具,深度学习工具也在快速发展。相反被迫花大量时间从头开始编写应该是样板代码的代码。
加速研究的界面
kaolin的核心是一组有效的几何函数,这些函数可以操纵3D内容。它可以包装为PyTorch张量3D数据集,实现为多边形 网格,点云,有符号距离函数或体素网格。
研究人员可以将其3D数据集准备好进行深度学习,然后从kaolin提供的精选馆藏中选择一个神经网络模型。该界面提供了丰富的模型存储库,包括模型和基础模型,用于分类,分割,3D重建,超分辨率等。
实际应用程序的一些示例是:
分类以识别3D场景中的项目通常是下面说明的更复杂过程的第一步。
3D零件分割可自动识别3D模型的不同部分,从而轻松为动画装配角色或自定义模型以生成对象的变体。
图像到3D根据受过训练的神经网络识别的产品图像来构建3D模型。反过来,例如可以使用3D模型从供应商目录中搜索最适合的3D模型数据库。
除了源代码,还将在流行的基准上发布针对这些任务的预训练模型。希望它们可以作为将来研究的基准,从而简化模型比较的工作。
kaolin的模块化方法使用户轻松进行可区分的渲染,这是3D深度学习中的一项热门新技术。用户可以简单地修改接口耗材的组件,而不必从头开始编写整个渲染器。
将AI与3D结合起来
在NVIDIA进行了大量的3D相关研究。有时会花几天时间浏览其他人编写的开源代码,以找出最佳方法,然后将其全部放入一个库中供内部使用。
在几个项目编写样板代码之后,一位实习生建议为PyTorch创建更全面的工具。一段时间以来,研究人员已经拥有了用于2D图像的实用程序。一种适用于3D的技术可以扩大社区范围。
将它命名为kaolin,kaolin是一种通常用于雕刻3D模型然后被数字化的橡皮泥形式。希望它可以帮助许多当前和新的3D研究人员使用AI创造惊人的事物。
研究人员可以立即在GitHub上下载该库。
https://github.com/NVIDIAGameWorks/kaolin/
相关论文
https://arxiv.org/abs/1911.05063