NVIDIA通过kaolin PyTorch库简化3D深度学习研究

代码医生工作室

发布于 2019-11-19 22:15:19

4470

发布于 2019-11-19 22:15:19

文章被收录于专栏：相约机器人

来源 | NVIDIA

编辑 | 代码医生团队

3D计算机视觉和AI的研究工作像两个摩天大楼一样并排发展。但是这些巨大的塔之间的旅程涉及爬上和爬下数十个楼梯间。

为了弥合这种鸿沟，NVIDIA今天发布了kaolin，只需几步，就可以将3D模型移入神经网络领域。

作为PyTorch库实现的，kaolin可以简化为深度学习准备3D模型的工作，从300行代码减少到只有5行。

复杂的3D数据集可以加载到机器学习框架中，无论它们如何表示或呈现。

这样的工具可以使机器人，自动驾驶汽车，医学成像和虚拟现实等领域的研究人员受益。

对3D模型的兴趣正在蓬勃发展，kaolin可以产生重大影响。在线存储库已经拥有许多3D数据集，这在一定程度上要归功于大约3千万个可捕捉3D图像的深度相机，并且现在在全球范围内，从实验室到客厅都在使用。

迄今为止，研究人员缺乏使这些模型可以与深度学习工具配合使用的良好工具，深度学习工具也在快速发展。相反被迫花大量时间从头开始编写应该是样板代码的代码。

加速研究的界面

kaolin的核心是一组有效的几何函数，这些函数可以操纵3D内容。它可以包装为PyTorch张量3D数据集，实现为多边形网格，点云，有符号距离函数或体素网格。

研究人员可以将其3D数据集准备好进行深度学习，然后从kaolin提供的精选馆藏中选择一个神经网络模型。该界面提供了丰富的模型存储库，包括模型和基础模型，用于分类，分割，3D重建，超分辨率等。

实际应用程序的一些示例是：

分类以识别3D场景中的项目通常是下面说明的更复杂过程的第一步。

3D零件分割可自动识别3D模型的不同部分，从而轻松为动画装配角色或自定义模型以生成对象的变体。

图像到3D根据受过训练的神经网络识别的产品图像来构建3D模型。反过来，例如可以使用3D模型从供应商目录中搜索最适合的3D模型数据库。

除了源代码，还将在流行的基准上发布针对这些任务的预训练模型。希望它们可以作为将来研究的基准，从而简化模型比较的工作。

kaolin的模块化方法使用户轻松进行可区分的渲染，这是3D深度学习中的一项热门新技术。用户可以简单地修改接口耗材的组件，而不必从头开始编写整个渲染器。

将AI与3D结合起来

在NVIDIA进行了大量的3D相关研究。有时会花几天时间浏览其他人编写的开源代码，以找出最佳方法，然后将其全部放入一个库中供内部使用。

在几个项目编写样板代码之后，一位实习生建议为PyTorch创建更全面的工具。一段时间以来，研究人员已经拥有了用于2D图像的实用程序。一种适用于3D的技术可以扩大社区范围。

将它命名为kaolin，kaolin是一种通常用于雕刻3D模型然后被数字化的橡皮泥形式。希望它可以帮助许多当前和新的3D研究人员使用AI创造惊人的事物。

研究人员可以立即在GitHub上下载该库。

https://github.com/NVIDIAGameWorks/kaolin/