业界 | 谷歌开源深度学习街景文字识别模型:让地图随世界实时更新

选自Google Blog

作者:Julian Ibarz

机器之心编译

参与:李泽南、晏奇

谷歌地图的街景功能拥有 800 亿张高分辨率图片,而且这个数字还在以每天百万的速度不断增加。街景图片是获取准确地理信息的绝佳渠道,而利用深度学习从图片中获取信息,并实时更新地图地址内容正是谷歌研究团队努力的目标。

每一天,谷歌地图都会为数百万人指路,并提供相应的实时路况信息和商店推荐。为了向用户提供最好的体验,这些信息必须随着不断变化的世界实时更新。谷歌街景车每天都会收集数百万张图片,而人工分析这超过 800 亿张高分辨率图片中的信息,试图找出其中的新变化是一个不可能完成的任务。谷歌 Ground Truth 团队正在研究如何让计算机自动将图片中的内容转变为谷歌地图需要的信息。

在最近的一篇论文《Attention-based Extraction of Structured Information from Street View Imagery》中,谷歌的研究者讨论了使用深度神经网络在多个国家收集到的街景图中读取街道名的任务。谷歌的算法在「French Street Name Signs(FSNS)」数据集中达到了 84.2% 的准确率,表现大大超过了此前表现最好的系统。更重要的是,新系统除了可以读取街道名称,还可以自动读取图片中的商户名,以及其他信息。谷歌近日已将这一模型开源。

Github 地址:https://github.com/tensorflow/models/tree/master/attention_ocr

在 FSNS 数据集中的街道名被谷歌的系统成功转录,这个路标提供了四张不同图片。

在自然环境中识别文字对于计算机视觉和机器学习而言是一个非常具有挑战性的任务。传统的光学字符识别(OCR)系统主要适用于从文件中扫描信息,而从自然视角中获取文字则面临更多麻烦,失真、遮蔽、方向模糊、复杂背景和不同视角都会对识别产生影响。谷歌应对这一挑战的研究从 2008 年就开始了,他们曾使用神经网络来模糊结晶图片中的人脸与车牌以保护隐私。在先前阶段的研究中,研究人员逐渐意识到经过足够已标记数据的训练后,机器学习不仅可以用来保护用户隐私,还可以自动为谷歌地图进行实时信息的更新。

在 2014 年,谷歌 Ground Truth 团队发布了当时最好的读取街景门牌(SVHN)数据集中门牌号的方法。这一应用是由 Ian Goodfellow 等人提出的,它不仅引起了学界的关注,也切实改变了谷歌地图的面貌。今天,全球大约 1/3 的地址都是由这一系统提供的。在一些国家如巴西,Goodfellow 等人的算法为谷歌地图提供了超过 90% 的地址,极大地增强了地图的可用性。

在门牌号之后,最合情理的下一步就是将这些技术延展到街道名称上了。为了解决这一问题,谷歌团队首先发布了法国街道路标数据集(French Street Name Signs,FSNS),一个拥有超过一百万街道名称的训练数据集。FSNS 数据集是多年努力的成果,旨在帮助所有开发者提升自己的 OCR 模型在实际应用中的性能。FSNS 数据集比 SVHN 数据集更大,也更具挑战性,准确识别一张街道标识可能需要对于同一个标识不同角度的图片进行合并处理。

SVHN 数据集:http://ufldl.stanford.edu/housenumbers/

FSNS 数据集:https://github.com/tensorflow/models/blob/master/street/README.md

这是一些具有挑战性的标识,它们由谷歌的系统通过选择或结合对图像的理解而恰当地进行了转录。第二个例子就更具挑战性了,但是由于模型提前学习了一个语言模型,这使得它能够去除模糊而正确的认读街道的名字。

2016 年,使用这个训练集,谷歌实习生 Zbigniew Wojna 用整个夏天开发出了一个深度学习模型架构,该架构可以自动对街景图像进行标记。新模型的其中一个有趣的功能是它可以将文本规范成与我们日常命名习惯一致的方式。

例:从来自巴西的数据中习得的文本规范化。在这里,系统将「AV.」改成了「Avenida」,并且将「Pres.」改成了「Presidente」,这正是我们想要的。

在本例中,模型并没有因为图中有两个街道名而晕头转向,它很好的将「Av」转换成了「Avenue」,同时它也正确地忽略了数字「1600」。

尽管该模型很精确,但是它也还是存在一系列达 15.8% 的错误率。然而,通过分析错误的例子,研究者发现其中 48% 是由于现实场景就是错的。这突显出新模型与标记质量平分秋色(对错误率完整的分析可参见论文)。

与提取街道数字的系统结合后,这个新系统让我们可以从图像中直接创造出新的地址,要知道这些街道名字或是地址的位置在事先是不知道的。现在,只要一台街景车开到任何一条新修的街道上,谷歌的深度学习系统就可以分析被捕获的成千上万张图像,提取街道名字和数字,并且适当的在谷歌地图上自动创造和定位新的地址。

但是,自动创造地址对于谷歌地图来说还不够——研究人员在未来希望能够依据名字来提供对商户的导航。2015 年,谷歌发表了「从街景图像中发现大规模商户(论文地址:https://arxiv.org/abs/1512.05430)」的论文,它为人们提供了一个可以在街景图像中精确探测商户标牌的方法。

通过使用不同的训练集,谷歌用于读取街道名字的模型架构也同样可被用于从商户外墙上精确提取商户名字。在这个例子中,深度学习系统可以仅提取这样的商户名字:它们让开发者可以验证自己是否已从谷歌地图中知道了这家商户。这种提取商户名的功能让开发者们可以更精确地持续更新商户变化的情况。

尽管没有从图片名称中获取任何有关真实地址的信息,系统还是识别出了商户名「Zelina Pneus」。模型也没有被商户名旁边的轮胎品牌(普利司通)所迷惑。

将超过 800 亿张街景图使用这一模型处理是一个十分耗费计算能力的任务。对此,谷歌 Ground Truth 团队使用了新研发的 TPU,极大地解决了计算机资源的耗费。

人们依赖于谷歌地图的协助,而让地图随着城市、道路与商业区域的成长而同步更新仍然是一个非常有挑战性的任务。谷歌 Ground Truth 团队将会继续努力,将更多机器学习技术带给谷歌地图的用户。

论文:Attention-based Extraction of Structured Information from Street View Imagery

论文链接:https://arxiv.org/abs/1704.03549

我们提供了一个神经网络模型——基于 CNN、RNN 和一种全新的注意机制,它在 FSNS 数据集挑战中达到了 84.2% 的准确率,大大超过了此前最好的模型(Smith, 2016;准确率 72.46%)此外,新的模型比旧模型更加简单,也更具通用性。为了展示新模型的能力,我们让它在更具挑战性的谷歌街景图数据集中读取商户名。最后,我们研究了在不同 CNN 深度的情况下速度/准确性的变化趋势,我们发现更深并不一定意味着更好(在准确性和速度上都是这样)。我们的最终模型简单、快速而且准确,可以在具有挑战性的真实世界环境中应用于多种不同任务。

原文链接:https://research.googleblog.com/2017/05/updating-google-maps-with-deep-learning.html

原文发布于微信公众号 - 机器之心(almosthuman2014)

原文发表时间:2017-05-04

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏ATYUN订阅号

3D打印全光学固态神经网络,光速执行AI分析

机器学习如今无处不在,但它通常或多或少是不可见的:它们在后台优化音频或识别人脸。但是这个新系统不仅可见,而且是一个物体:它不是通过处理数字而是通过光的衍射来执行...

9420
来自专栏企鹅号快讯

人工智能、区块链、图灵测试……这30个大数据热词你真的都懂吗?

2017年,大数据产业依旧保持高速增长态势,并从单一的技术概念逐渐转化为新要素、新战略、新思维。鉴别真假内行的时候来了,你真的明白这些科技热词的意思吗?小编为您...

31690
来自专栏AI科技评论

学界 | 谷歌地图重大升级,用深度学习实时更新街景

AI科技评论按:每天,谷歌地图都为成千上百万的人们提供方位指示,实时路况信息以及商业信息。为了提供最佳的用户体验,地图信息需要不断的根据现实世界的变化做出调整。...

30770
来自专栏AI研习社

Pick 一下?Python 机器学习实用技巧

入门机器学习从来不是一件简单的事。除了成熟的 MOOC,网络上还有海量的免费资源,这里列举了一些曾经对我有帮助的资源:

11730
来自专栏灯塔大数据

每周学点大数据 | No.50 众包应用举例

No.50期 众包应用举例 小可:那除了维基百科之外,众包还有哪些应用呢? Mr. 王:其实众包在业界的应用还是非常广泛的。大量的公司和网站都使用了众包算法...

38280
来自专栏数据结构与算法

记一道贝叶斯公式的裸题

上课好不容易听懂了,赶紧整理一下,不然以我的记性估计明天就要忘干净了 题目 一个用户所有邮件分为两类:$A_1$代表垃圾邮件, $A_2$代表非垃圾邮件 根据经...

32750
来自专栏小小挖掘机

COR“竞争市场条件下航班计划策略研究”论文解析

本文是针对发表在《Computers & Operations Research(计算与运筹)》上的一篇论文 “Airline flight schedule ...

35450
来自专栏专知

亚马逊NAACL新论文:如何教Alexa语音助手快速理解新语言

15420
来自专栏xingoo, 一个梦想做发明家的程序员

白话推荐系统——从原理到实践,还有福利赠送!

之前流水账似的介绍过一篇机器学习入门的文章,大致介绍了如何学习以及机器学习的入门方法并提供了一些博主自己整理的比较有用的资源。这篇就尽量以白话解释并介绍机器学...

21560
来自专栏申龙斌的程序人生

读书:学得少,考得好

《Learn More Study Less》这本书最早在网上直译为《学得少却考得好》,后来机械工业出版社翻译为《如何高效学习》。这本书我是2013年从褪墨网站...

378130

扫码关注云+社区

领取腾讯云代金券