学界 | 谷歌地图重大升级,用深度学习实时更新街景

AI科技评论按:每天,谷歌地图都为成千上百万的人们提供方位指示,实时路况信息以及商业信息。为了提供最佳的用户体验,地图信息需要不断的根据现实世界的变化做出调整。街景车每天收集数百万张图片,如果用人工分析每天超过800亿张高清晰图片来找出其中的新变化或者更新地图信息,显然是不可能的。因此,谷歌地面实况团队(Ground Truth team)的目标之一,就是从地理位置图像自动提取信息来升级谷歌地图。

在“从街景图像中提取基于注意机制的结构化信息”(Attention-based Extraction of Structured Information from Street View Imagery)一文中,谷歌描述了所采用的方法——怎样在街景视图中使用深度神经网络自动且准确无误地读出街道名称。我们的算法系统在挑战“法国街道名称识别数据集”(French Street Name Signs (FSNS) dataset)中达到了84.2%的正确率,明显优于之前的最优系统。重要的是,谷歌的系统在提取其他类型信息也是很容易扩展的。比如现在帮助谷歌自动提取商店前面的商户名称。目前该模型已经开源。

图中为法国街道名称标识数据集中的一个例子,被谷歌的系统正确识别。上图为同一标识的四种不同视角

自然环境中的文本识别在计算机视觉和机器学习上是一个非常具有挑战性的问题。传统的光学字符识别(OCR)系统主要侧重于从扫描的文档中提取文本。在自然场景中由于视觉伪影,如失真、闭塞、定向模糊、杂乱的背景或不同的角度给提取文本提升了难度。谷歌从2008年开始致力于解决这一问题,使用神经网络模糊了街景图像中的脸和车牌,以保护谷歌用户的隐私。从最初的研究中,团队意识到经过足够的标记数据训练后,机器学习不仅能保护用户的隐私,而且还可以自动升级谷歌地图相关的最新信息。

2014年谷歌地面实况团队在街景门牌号数据集(SVHN)上公布了读取街道号码的方法,随后暑期实习生Ian Goodfellow(现为谷歌员工)进行了运用。这个工作不仅是出于对学术的兴趣,而且也是使谷歌地图更为精确的关键。如今得益于这个系统,超过三分之一的全球地址已经在谷歌地图上有了自己的位置。在一些国家,如巴西,这个算法增加了超过90%的谷歌地图地址,大大提高了谷歌地图的可用性。

下一步是将这些技术扩展到街道名称。为了解决这个问题,谷歌创建和发布了法国街道名称标志(French Street Name Signs,FSNS),有超过100万的街道名称训练数据集,旨在提高人们对OCR模型在实际使用情况下的认识。FSNS是谷歌经过多年的努力而构建的,它比SVHN数据集更加庞大,也更具挑战性,因为如果要准确识别某个街道标识,可能需要对各个角度所拍摄的图片进行整合处理。

上图是识别起来很有难度的一些标识,也被谷歌系统通过对图像的理解而正确判断了。尤其是第二个,不过这个模型在之前学习了语言模型,使其能够消除歧义,并正确识别出街道名。值得一提的是,在FSNS数据集中,同一路标在少于四个独立视图的情况下会以增加随机噪声的方式。

谷歌实习生Zbigniew Wojnazai在2016年夏天用这个数据集开发了一个深度学习模型,它能够自动标注新的街景视图。这个新模型的一个优点是,它可以根据日常的命名习惯进行文本规范。

上图的例子中,可以将"AV."转化为"Avenida","PRES."转化为“Presidente”这是我们期望看到的结果

在这个图中,模型没有被图中的两个街道名称迷惑,将"Av"正确转化为"Avenue",同时也识别出了数字"1600"

尽管这个模型非常精确,它依然有15.8%的序列错误率。不过,在分析错误样本后,团队发现,其中48%是由于地面实况错误,也就是说,模型与标记质量呈现的准确度基本一致。(在我们的论文中有详细的错误率分析)

这个新系统结合了提取街道号码技术,使我们能够直接从图像创建新的地址。现在,每当一辆街景车在新建的道路上行驶时,我们的系统可以捕捉上千万张图像,提取街道名称和数字,并自动在谷歌地图上创建和定位新地址。

但自动为谷歌地图创建地址是不够的。此外,我们还希望能够为商业提供导航。在2015,我们发表了“从街景图像中进行大规模的商户探索”(Large Scale Business Discovery from Street View Imagery)一文,文中提出了一种方法可以准确地检测商店外墙的标志。然而,检测到商店外墙,仍然需要准确地提取它的有用名称。模型必须找出哪个文本是商户名称,哪些文本是不相关的。谷歌称这种提取为“结构化文本”信息的提取。它不只是文字,而是具有语义意义的文本。

使用不同的训练数据,我们用来读取街道名称的模型结构也可以用来准确地提取商业名称。在这种特殊情况下,如果我们已经知道这个商户在谷歌地图的位置,可以只提取商业名称来进行验证,使之能够更准确地更新商业列表。

如上图所示,虽然没有从图片中获得任何有关真实地址的信息,但系统还是正确识别出了商户的名字Zelina Pneus,而且没有被旁边的轮胎品牌所骗。

模型需要处理800多亿个街景图像,需要强大的计算能力。这就是为什么谷歌地面实况团队采用TPU,可以大幅减少我们的推理计算成本。

人们依赖于谷歌地图的精准性来协助他们工作和生活。同时,在景观、道路和商业不断变化的情况下,谷歌地图的更新所面临的技术挑战,远远还没有解决。为超过十亿的谷歌地图用户创造更好的用户体验,一直是谷歌地面实况团队追求的目标。

原文发布于微信公众号 - AI科技评论(aitechtalk)

原文发表时间:2017-05-04

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏机器之心

业界 | 谷歌开源深度学习街景文字识别模型:让地图随世界实时更新

选自Google Blog 作者:Julian Ibarz 机器之心编译 参与:李泽南、晏奇 谷歌地图的街景功能拥有 800 亿张高分辨率图片,而且这个数字还在...

49080
来自专栏大数据文摘

业界 | 谷歌AI上线“与书籍对话”项目,从10w+本书中搜索你要的答案

15330
来自专栏ATYUN订阅号

3D打印全光学固态神经网络,光速执行AI分析

机器学习如今无处不在,但它通常或多或少是不可见的:它们在后台优化音频或识别人脸。但是这个新系统不仅可见,而且是一个物体:它不是通过处理数字而是通过光的衍射来执行...

9420
来自专栏新智元

Jeff Dean、李飞飞等发起SysML大会,Jeff Dean主题演讲:系统与机器学习融合(45PPT)

新智元报道 来源:SysML 2018 编辑:闻菲、艾霄葆、常佩琦、刘小芹 【新智元导读】Jeff Dean、Michael I.Jordan、李飞飞、...

44380
来自专栏xingoo, 一个梦想做发明家的程序员

白话推荐系统——从原理到实践,还有福利赠送!

之前流水账似的介绍过一篇机器学习入门的文章,大致介绍了如何学习以及机器学习的入门方法并提供了一些博主自己整理的比较有用的资源。这篇就尽量以白话解释并介绍机器学...

22160
来自专栏申龙斌的程序人生

读书:学得少,考得好

《Learn More Study Less》这本书最早在网上直译为《学得少却考得好》,后来机械工业出版社翻译为《如何高效学习》。这本书我是2013年从褪墨网站...

381130
来自专栏绿巨人专栏

我的Machine Learning学习之路

37460
来自专栏Crossin的编程教室

关于Python数据分析,这里有一条高效的学习路径

广泛被应用的数据分析 谷歌的数据分析可以预测一个地区即将爆发的流感,从而进行针对性的预防;淘宝可以根据你浏览和消费的数据进行分析,为你精准推荐商品;口碑极好的网...

707110
来自专栏趣学算法

《趣学算法》内容摘要及特色

本书内容按照算法策略分为7章内容,第1章从算法之美、简单小问题、趣味故事引入算法概念、时间复杂度、空间复杂度的概念和计算方法,以及算法设计的爆炸性增量问题,使读...

18720
来自专栏机器之心

从PyTorch到Mxnet ,对比7大Python深度学习框架

选自kdnuggets 作者:Madison May 机器之心编译 参与:王宇欣、李亚洲 选择什么深度学习框架一直是开发者非常关心的一个话题,而且深度学习框架...

54860

扫码关注云+社区

领取腾讯云代金券