首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

使用扩散模型从文本提示中生成3D点云

虽然最近关于根据文本提示生成 3D点云的工作已经显示出可喜的结果,但最先进的方法通常需要多个 GPU 小时来生成单个样本。这与最先进的生成图像模型形成鲜明对比,后者在几秒或几分钟内生成样本。在本文中,我们探索了一种用于生成 3D 对象的替代方法,该方法仅需 1-2 分钟即可在单个 GPU 上生成 3D 模型。我们的方法首先使用文本到图像的扩散模型生成单个合成视图,然后使用以生成的图像为条件的第二个扩散模型生成 3D 点云。虽然我们的方法在样本质量方面仍未达到最先进的水平,但它的采样速度要快一到两个数量级,为某些用例提供了实际的权衡。我们在 https://github.com/openai/point-e 上发布了我们预训练的点云扩散模型,以及评估代码和模型。

03

Rich feature hierarchies for accurate object detection and semantic segmentation

在PASCAL VOC标准数据集上测量的目标检测性能在最近几年趋于稳定。性能最好的方法是复杂的集成系统,它通常将多个低层图像特性与高层上下文结合起来。在本文中,我们提出了一种简单、可扩展的检测算法,相对于之前VOC 2012的最佳检测结果,平均平均精度(mAP)提高了30%以上,达到了53.3%。我们的方法结合了两个关键的方法:(1)为了定位和分割目标,可以一次将高容量应用卷积神经网络(cnn)自下而上的区域建议(2)标记的训练数据稀缺时,监督为辅助训练的任务,其次是特定于域的微调,收益率显著的性能提升。由于我们将区域建议与CNNs相结合,我们将我们的方法称为R-CNN:具有CNN特性的区域。我们还将R-CNN与OverFeat进行了比较,OverFeat是最近提出的一种基于类似CNN架构的滑动窗口检测器。在200类ILSVRC2013检测数据集上,我们发现R-CNN比OverFeat有较大的优势。

02
领券