为计算机视觉生成庞大的、合成的、带标注的、逼真的数据集

本文为 AI 研习社编译的技术博客,原标题 : Generating Large, Synthetic, Annotated, & Photorealistic Datasets for Computer Vision 翻译 | Kivi·Wong、灰灰在学习 校对 | Peter_Dong 整理 | 菠萝妹 原文链接: https://medium.com/greppy/generating-large-synthetic-annotated-photorealistic-datasets-for-computer-vision-ffac6f50a29c

我想要给大家分享一个我们在Greppy一直使用的测试版工具,其被称之为”Greepy Metaverse“,其通过快速、简便地为机器学习生成大量训练数据,来辅助计算机视觉目标识别/语义分割/对象分割(旁白:如果可以的话,我们也希望能够为你的项目提供帮助 - 给我发邮件(matt@greppy.co 或者在领英(LinkedIn)中搜索联系我))。 如果你已经做过图像识别,你应该知道数据集的数量和准确性是重要的。你的所有场景也都需要标注,这意味着有上千或者上万张图片。这时间和精力对于我们小团队来说是不可估量的。

概览

因此,我们发明了一个工具,使得创造大量带标注的数据集更加容易。我们希望,通过生成识别及对所有对象分割所需的图片,能对虚拟现实、自动驾驶、通用机器人有帮助。 我们甚至开源了我们VertuoPlus Deluxe Silver数据集,其包含1000种咖啡机的场景,所以你可以跟我们一起做!它是一个6.3GB的下载包。 为了说明其性能,我们将给你一个在Greepy的真实例子,我们需要通过因特尔Realsense D435摄像机来识别我们的咖啡机及其按钮。未来将会有更多说明我们为什么想要识别我们的咖啡机,但这足够表明我们需要咖啡因的时间多于不需要它的时间。

Greppy Metaverse 网站截图

昔日,我们不得不手动标注!

VGG图片标注工具样例,由Waleed Abdulla 的 “Splash of Color”提供。

在过去绝大多数数据集的标注任务是由人工标注完成的。正如在左边看到的,这不是一个特别有趣的活,并且由于全是人为的,其容易出现错误。

该工具也几乎不可能准确地标注其他重要的信息,如物体姿态,物体法线及深度。

合成数据:一个长达10年的想法

合成数据(计算机生成)是一种有希望替代手工标记的方法。这个想法已经产生了十多年了(此Github仓库链接了相当多这样的项目)

来源于Learning Appearance in Virtual Scenarios for Pedestrian Detection, 2010

我们在现有的项目中遇到了一些问题,因为其要么要求使用编程技巧,要么无法输出逼真的图像。 我们需要一些工具,帮助我们的非编程团队有效地生成大量数据以识别新目标物。当然,我们的一些物品在没有光线追踪(维基百科)的情况下,对于真实图片的生成是有挑战的,这是一种其他现存项目中没有运用的技术。

利用Greppy Metaverse制造上规模的合成数据

为了能达到我们期望数量规模的物体,我们创造了Greepy Metaverse工具。例如,我们可以使用从网站3D Warehouse预先做好的CAD模型,然后利用网页接口使它们更加逼真。或者,我们的画师可以创造自定义3D模型,而不需要担心如何编程。 让我们回到咖啡上。 利用我们的工具, 我们首先上传两个我们现有的Nespresso VertuoPlus Deluxe Silver机器非逼真的CAD模型,我们确实上传了两个CAD模型,因为我们希望在两种结构下识别机器。

由我们团队自定义的CAD模型

当CAD模型上传后,我们选择预先做好的,逼真的材料并应用到每个表面上。Greppy Metaverse 的目标之一就是组建一个开源的,逼真的材料库以供所有人使用(理想情况是能在社区的帮助下)。备注, 3D艺术家通常需要创建自定义材料。

为CAD模型选择预先做好的,逼真的材料。

为了能够识别机器的不同部分,我们需要标注机器上我们关注的部分。网页界面提供了方法去完成此操作,这样不了解3D建模软件的人就可以帮助进行标注。不需要3D画师或者程序员啦:)

轻易地标注每个物品所有感兴趣的部分。

接下来呢……就会变成这样!我们自动生成数万个场景,并且这些场景在姿态、物体数量、相机角度和光照条件方面都不相同。它们都会被自动注释,并且精确的对应着各个像素点。在这些场景背后,该工具使用GPU运行一系列云实例,并且通过一些“渲染农场”对这些变化进行渲染。

这是一个来自 open-sourced VertuoPlus Deluxe Silver dataset的RGB图像的例子:

在许多不同光照条件,不同相机角度,不同安排对象的RGB色彩模式的场景。

对于每个场景,我们输出一些东西:基于你摄像机的选择输出单目或立体的RGB模式的图片。摄像机通过调整摄像机和拍摄对象的姿态,通常会对所看到的深度、所有对象和部分对象包括场景中物体的表面法线的像素进行完美注释。

让我再强调一下,任何场景都不需要手动做标记。

单个场景的示例输出如下:

每个场景的输出的示例

生成数据上的机器学习

当整个数据集生成之后,就可以直接使用它们来训练Mask-RCNN模型(关于Mask-RCNN的历史,这里有一份很好的资料)。在后续的文章,我们将开源Mask—RCNN的Matterport实现代码,我们用这份代码从Greppy Metaverse数据库中训练了3D实例分割模型。 同时,这里给出一个预览。下面是Intel RealSense D435摄像机的原始拍摄数据,左边是RGB图,右边是校准后深度图。(组成RGB-D 共4个通道)

拍摄自Intel RealSense D435的原始数据。没错,这是咖啡,茶和伏特加;-)

为了这个Mask-RCNN模型,我们使用大约1000个场景的开源数据集来训练。在模型训练了30个epochs之后,我们可以看到在RGB-D上运行结果。看!我们得到了几乎100%准确的mask输出,这仅仅只在合成数据上进行了训练。 当然,我们也会开源训练代码,所以你可以亲自验证这一点。

一旦我们可以确定图像中哪些像素是我们感兴趣的对象,我们就可以使用Intel RealSense 采集的帧来获取咖啡机上那些像素的深度(米制)。了解Nespresso机器具体的像素及深度也将有利于任何虚拟现实,导航规划和机器操控等应用。

结论和思考

当下,Greepy Metaverse只是在测试,并且有很多我们希望改善的地方。但是我们真的对结果感到很开心。 与此同时,如果你有项目能够从我们的工具中获益,请联系我。Email matt@greppy.co 或者在领英(LinkedIn)上联系我。 特别鸣谢 Waleed Abdulla 及 Jennifer Yip 为改进这篇生成数据上的机器学习

原文发布于微信公众号 - AI研习社(okweiwu)

原文发表时间:2018-10-20

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏机器之心

前沿 | 如何解决深度学习中的多体问题

选自Medium 机器之心编译 参与:乾树 多个智能体如何协同工作才能高效完成任务?深度学习领域中的多体问题就像物理领域中的一样难解。很多研究机构正致力于研发先...

3617
来自专栏CDA数据分析师

带你十分钟看懂机器学习与 TensorFlow(GDD 2017)(附视频中字)

TensorFlow是世界上最流行的开源机器学习框架。在2017年谷歌开发者大会欧洲站中,Andrew Gasparovic介绍了TensorFlow以及发展的...

4518
来自专栏目标检测和深度学习

厉害了,我用“深度学习”写了个老板探测器(附源码)

如果上班的时候想放松一下,或者直说想偷偷懒,看点和工作无关的网页,这时候万一老板突然出现在背后,会不会感到很难堪呢? 有的浏览器设置了boss按键,手快的人还可...

3527
来自专栏深度学习自然语言处理

大家都收藏了的最新开源项目Top12!CV、NLP、机器学习一应俱全

【导读】作者整理了近期最新发布及更新的 12 个非常有学习和收藏意义的开源项目。这些项目中包括基于 TensorFlow 的强化学习框架;可以对数据进行结构化处...

1131
来自专栏杨熹的专栏

强化学习第一课:像学自行车一样的强化学习

在监督式学习中,我们有数据 x 和标签 y。我们想要找到一个函数来连接 x 和 y。可以选择决策树,线性回归等模型,然后训练这些模型使损失函数达到最小。

963
来自专栏机器之心

业界 | 百度人机交互新研究:仅用少量样本生成高质量多说话者语音

2775
来自专栏ATYUN订阅号

神经网络新方向:硅芯片将光学信号精准分布到微型类人脑网格

美国国家标准与技术研究院(NIST)的研究人员制作了一种硅芯片,可以精确地将光学信号分布在微型类人脑网格上,展示了神经网络的潜在新设计。

982
来自专栏CDA数据分析师

大家都收藏了的最新开源项目Top12!CV、NLP、机器学习一应俱全

【导读】作者整理了近期最新发布及更新的 12 个非常有学习和收藏意义的开源项目。这些项目中包括基于 TensorFlow 的强化学习框架;可以对数据进行结构化处...

772
来自专栏智能算法

机器视觉算法(系列一)--机器视觉简短入门

机器视觉是人工智能正在快速发展的一个分支。机器视觉作为生产过程中关键技术之一,在机器或者生产线上,机器视觉可以检测产品质量以便将不合格的产品剔除,或者指导机器人...

4188
来自专栏大数据文摘

上班族必备,日本小哥用深度学习开发识别老板的探测器(附源码)

1772

扫码关注云+社区

领取腾讯云代金券