用图像数据训练AI，帮助失明者“看”到外面的世界

文章来源：企鹅号

药明康德/报道

在过去几年中，计算机视觉识别已经被应用到了很多领域。例如，一些手机应用程序可以识别出照片中的物品是什么，以及在哪里可以购买。Facebook和Twitter等大型社交媒体也利用这一技术，在用户上传的照片中将他们的朋友自动识别并@出来，为人们提供了一种和朋友保持联系的方式。

在实现了这些突破之后，计算机视觉识别的下一项重大应用就是为失明的人们提供帮助，让他们的生活不再因为视觉的缺失而产生不便。现在一些公司已经推出了解决这一问题的应用程序，利用视觉问答技术，让用户拍摄照片并提出他们想要了解的问题，再由后台给出答案。例如，如果一名用户想要得知他手上的T恤是什么颜色的，他只需要拍摄一张T恤的照片并附上问题，就可以得到相应的答案。

然而，这类应用程序存在着一个非常严重的问题：由于照片均为失明者拍摄，而他们又无法看到自己拍摄的照片，因此导致照片质量参差不齐，一些低质量的照片无法被识别，从而不能给用户正确的答案。为了能够更好的帮助失明者，这类应用程序急需开发一套算法，来训练计算机识别低质量的图片并提示用户重新拍照。因此，建立开发算法所使用的图像数据库，就成了研究人员的当务之急。

▲VizWiz用户上传的照片，以及根据这些照片提出的问题和答案。其中第二行的图片由于画面模糊等质量问题，无法根据图片来进行回答（图片来源：arXiv）

近日，来自德克萨斯大学奥斯汀分校（University of Texas at Austin）的Danna Gurari博士团队发表了一项研究成果，建立了一个用于训练计算机进行视觉问答的数据库，其中包括31000张由失明者拍摄的照片，以及和这些照片相关的问题和答案。这些图片和问题都来自一个叫做VizWiz的应用程序。

▲这项研究的主要负责人Danna Gurari博士（图片来源：The University of Texas at Austin）

Danna Gurari博士及其团队成员筛选了70000多张由失明者拍摄的照片，其中去掉了一些个人隐私信息，然后依据筛选过后的照片，收集相关问题的答案。为了保证数据的一致性，研究人员针对每张照片都搜集了十个左右的回答作为参考。经过筛选过后的31000张照片及其相关问题和回答，就组成了新的数据库，可以用于训练机器学习算法。

除了建立新的数据库之外，Gurari博士团队还对他们所收集的所有图片及问答进行了分析。在收集到的所有问题中，虽然大部分问题都可以概括为“XX是什么”的形式，但是问题里面经常会出现一些很少见的词汇。而且，只有2%的问题可以用“是”和“不是”来回答。在图像分析方面，有28%的图像因为质量过低，无法用作回答问题的参考。

▲VizWiz上所有问题的前六个单词的频率分布环形图，其中最内侧的环形代表第一个单词，以此类推。图中我们可以看出，“what”是所有问题开头使用频率最高的词汇（图片来源：arXiv）

Gurari博士表示，训练机器学习算法来帮助失明者是至关重要的。如果成功开发出相关的算法，可以让失明者克服生活中因视觉不便带来的困难，同时也可以减轻在视觉问答过程中对于人力的依赖。这样一来，可以减少雇佣人力的成本，同时大大加快了提供答案的速度，并且避免出现信用卡信息泄露等隐私问题。

我们希望，可以早日看到这个新建的数据库被用于训练机器学习算法，从而让失明者的生活变得更加方便。

发表于: 2018-03-052018-03-05 08:00:33
原文链接：http://kuaibao.qq.com/s/20180305G06H1G00?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

用图像数据训练AI，帮助失明者“看”到外面的世界

相关快讯

扫码

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐