首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

第一家把人工智能与导航地图结合的,竟然是……

泰伯网

有看点的空间地理信息资讯都在这

你还在等什么?

如今手机地图导航推出语音助手虽已成为行业标配,但其使用率和用户体验仍然不容乐观。对此,人工智能能做些什么?

如今,手机地图导航推出语音助手已经成为行业标配,但是效果并不完美,常常出现用户说话,导航无法识别,或是给出不详细,甚至错误信息的情况。最关键的是,操作手机导航可能会引发交通事故,为行车安全带来巨大的隐患。

那么,如何解决地图导航的语音使用难题?

搜狗地图总经理孔祥来在近日表示,搜狗地图正在试图用人工智能技术来解决这一问题。在今年7月,搜狗地图推出了“搜狗智能副驾”,基于语音识别、语义理解等人工智能技术,“搜狗智能副驾”可以通过与驾驶员的多轮对话,了解用户真实意图,给出最佳的出行方案和搜索结果,而整个过程驾驶员也无需分心,可以专注驾驶,保证出行安全。

与传统语音导航解决方案不同的是,搜狗智能副驾所强调的语音交互,并不是简单地用语音识别把用户说的话简单翻译过来就结束了,而是要通过后续一系列的语意、地图层面做一些分析工作,最终给用户一个正确的反馈结果。

目前,搜狗智能副驾使用的全部是搜狗自有的人工智能技术。”孔祥来说。出于这一原因,搜狗智能副驾的相关技术能够像引擎一样精密协作,达到松耦合无法达成的成功率,加上独特的语音纠错功能,已经完全可以解放用户的手眼,在保障安全行驶的情况下自在导航。

有专家认为,搜狗地图可能是目前国内首家将自主人工智能技术与地图导航进行结合的产品。用户对于导航产品的依赖程度达到一个空前的水平,与驾驶相关的导航需求达到92%,搜狗智能副驾的落地,可以有效改善传统的导航方式,提供更加便捷安全的驾驶环境。相信用不了多久,越来越多的用户都会感受到这份人工智能力量带来的魅力。

以下为孔祥来在钛媒体 T-EDGE 国际年度盛典上的部分演讲实录:

孔祥来:搜狗在过去一年以来在AI领域里面所做的尝试,即把语音识别技术、语意理解技术和地图导航技术结合起来,在汽车场景中向用户提供内容解决方案。

现在我们发现,用户在车内信息交互的需求,其实主要就是两类,一类是驾驶相关的,比如说导航、路况、沿途信息等,大概要占到92%。还有一类是互联网相关的,比如说听音乐、广播、新闻、聊微信等这些东西,用户在车内的信息交互需求,占比最高的主要就是这两类。

目前,用户的这种需求是怎么被满足的呢?在汽车场景里面,凡是用户想听歌、打电话的时候,汽车制造商都已经为用户提供了一些解决方案,但是以前主要都是基于物理的这种按键或旋纽,很不方便,所以我们也注意到在最近的一两年里边,汽车制造商已经开始把这种语音识别的技术引入到车内来。

语音交互毫无疑问是在车里面一个最合理的一种交互方式,因为毕竟你在开车的时候,你的手跟、眼都是属于被占用的一个状态。

汽车厂商做出来的语音交互主要问题就是听不懂,你跟系统絮絮叨叨说了半天,系统只按它自己的逻辑去解释,你如果不按它的方法来输入指令的话,它就拒绝配合你。

现在除了汽车厂商在提供这种语音交互的这种解决方案之外,互联网厂商不是也在做这些事情吗?有很多的互联网厂商现在已经开始在自己的车内的场景里,比如导航功能中开始植入这种语音交互的能力,互联网厂商目前做得怎么样?

导航供应商所提供的语音交互的表现主要所反应出来的问题其实就是说不清,我们知道语音交互它是个双向的概念,不光是你说的东西机器能听懂,同时机器也应该说人能听懂的东西,不能当人说完了之后,机器只管把结果给你列出来,然后让你再去重新选择和交互,如果是这样一种交互方式的话,在车内毫无疑问是非常不安全的。

所以,我们总结下来就是,就目前来看,用户体验到的语音交互,要么就是听不懂,要不就是说不清,用户真正需要的语音交互是什么呢?它是需要一个自然的语言对话,能够听懂用户想要什么,能够像人一样地去讲出这个答案。下面我们看一下,我们认为真正的语音交互应该是什么样的。

这就是我们想为大家推出的搜狗智能副驾的一个初衷,我们希望真正能在车内,用户是以这样一种交互方式去跟系统打交道的,而我们这个产品实际已经在7月初的时候发布了,现在安卓和iPhone手机都可以下载搜狗地图,搜狗地图里面会有一个模式叫做智能副驾,进到这个模式之后就可以跟汪仔进行语音交互,你可以说出你的需求是什么,它对话的方式大概就是这样的。

你先唤醒它,比如“你好汪仔”,他就会问你要去哪儿,你说去奥森,它知道奥森是有南门跟北门的,于是乎它会说奥森有两个你去哪一个,是南门还是北门。如果你说南门,最终它就会找到奥森的南门并且自动为你启动导航。

大家不要小看这个简单的过程,实际上这个过程背后是有非常复杂的技术的支撑,才能保证有这样一个良好的体验的。在汽车上的一个智能助手,如果想做到一个良好的语音交互体验的话,我们认为有4点需要做到:

第一个,听得对。这是最基本的,当用户说出一段话后能够正确地转译成文字。

第二个,听得懂。就是你光听对了不行,你得知道他想表达什么,什么意思。

第三个,能够说。帮用户搜索到结果反馈后,需要正确地把它表达出来。

第四个,要有相关非常丰富的知识,否则无法解决想要的问题。

我们来看一个实际的例子,比如说用户对系统说要去某个地方,系统会识别到很多的可能性,进入到语意分析环节,当我们把地图引入进来的时候,决策后会发现某个地方的概率更高,所以最终分析下来用户应该想去这个地方。

我说这个例子是想跟大家说,在听得对这个环节,不是简单地用语音识别把用户说的话简单翻译过来就结束了,而是说你要通过后续的一系列的像语意、地图层面做的一些分析的工作,然后你才能知道用户说的哪一个是对的。通过这个例子就能发现,我们通过语意和地图的纠错,使最终系统选出了正确的目的地。

像我们刚才在视频里看到的一些例子,比如你想在路上顺便加油、吃麦当劳等行为,目前在搜狗一个庞大的语意网络里面,已经能够听懂10万个类似像这样的语意路径,也就说你表达一种需求,你可能有不同的说法,在语意分析引擎这边,它能够兼容很多种说法,现在我们整个的对话路径已经超过了10万个。

接下来我们来看看,比如说在传统语音交互里面,你说你要去首都机场的时候,它会说我给你找到5个目的地,我们的做法是直接精简成你要去哪个航站楼或者航班号(这样只有15个字),这种方式就是用户所能接受的非常自然的语音交互。

所有的这些能够听得懂,是建立在一个非常重要的基础上,我们对地图数据做了非常重要的重构,我们把这个称之为主子关系,我们大概能够挖掘出500多万的主子关系。

除了主子关系还有所谓的容器关系(比如说搜狗公司在搜狗网络大厦里面),还有很多的商圈地片,当你说你要去大钟寺的时候,不是简单给你导到大钟寺地铁站,而是问你要去大钟寺的什么地方,这些都是我们定义的叫做地图知识。

除了地图知识之外还有很多跨域的知识,像航班、洗车、车站等都是我们所谓的有知识的范畴。传统模式的语音基本上是这样一个漏斗的模型:

第一级:语音识别率。

第二级:受限于语意理解的正确率。

第三级:受限于搜索的正确率。

最终一个漏斗剩下来,会话的成功率只有68.4%,大家可能会疑问怎么第一个环节语音识别正确率只有80%,这是因为现在有很多的语音的识别虽然都说自己的所谓字正确率能够达到90%几,但是你一旦把它变成一个句子的话,马上迅速地识别率就会下降下来。

而搜狗这边的做法是,每一级我们都会有一个纠错,都会根据后面的结果对前面进行反向纠错的过程。我们最后做下来的话,会话成功率能够做到90%,这个都是搜狗的自有技术。

搜狗这次所提供的智能副驾,核心关键点是在于所有的东西全部都是自己的核心技术,能够确保有最佳的用户体验,属于一个技术与体验的闭环。

(本文部分素材来源于钛媒体)

主笔:唐天石

泰伯网《高端访谈》及《智库观察》栏目负责人,拥有分析师视角的行业观察者,只关注商业价值与事物本质。

约访的加微信细聊!

End

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20171219B0NO4J00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券