多媒体搜索再进化

2015年百度世界展出了语音和图像为代表的多媒体搜索技术,这并非其首次亮相百度世界大会,多媒体搜索已成为百度的重头戏,与连接人与服务战略、人工智能战略一起构成百度的“三驾马车”。

多媒体搜索越来越重要

各大搜索引擎在搜索框之外,迎来两个新图标:话筒和相机,分别对应到语音和图像搜索。通过向搜索引擎说一段话发号施令,或者直接拍摄生活中的实景,表明搜索意图更加简单和自然。让机器“听”和“看”,是人类一直孜孜不倦的追求,这也是人类获取信息最重要的两种方式。

鉴于未来的搜索引擎不再是回答问题的“百科全书”,而是帮助人们解决生活中各类需求的“智能助手”,所以它必须越来越聪明,接近人类的智能。一个重要的改进方向便是交互,搜索引擎必须能听、会看,才能实现真正的智能。所以,在后移动互联网时代多媒体搜索会成为主流,依赖键盘输入的文本搜索比重将越来越小。李彦宏对此早有断言,他认为未来超过一半的搜索将来自语音和图像为代表的多媒体交互。

语音和图像搜索并非新技术,90年代IBM便推出了语音输入软件,2008年Google 就推出了Voice Search以及“以图搜图”,百度在PC时代也有过类似尝试。移动互联网时代语音和图像搜索才进入真正意义上的商用阶段。移动互联网带来了语音和图像搜索的使用场景,带来了具备麦克风、喇叭和摄像头的智能设备,语音搜索和图像搜索技术也迎来飞速发展,量变产生了质变,语音和图像搜索正在走向大众化,与文本搜索一样举足轻重。

百度猛攻语音和图像搜索

多媒体搜索有广泛的涵义,除了文本之外的“富媒体”搜索都算多媒体搜索,例如语音、图像、体感、位置、社交关系、物质解析(百度筷搜)等输入内容。不过,最重要的两类搜索是语音和图像搜索。在去年百度展出了通过拍照搜索识别动态衣服的技术,基于图像搜索技术的百度EYE以及小度机器人,2015百度世界重点展出了语音和图像搜索技术的进展,百度在语音和图像上依然还在大力投入和不断改进。

Siri为代表的语音助手普及,培养了人们通过语音与机器交互的习惯,在家里为代表的安静场景、在车内为代表的双手不空闲场景,在步行为代表的打字不便场景,语音都有很大的施展空间。而且语音不需要学习,包含情感色彩,能够传递更多信息。倘若技术达到应用标准,语音交互技术爆发是必然事件。

语音交互与搜索引擎的结合正在日趋紧密,不久前Siri与百度达成合作引入百科等内容,百度在今年则陆续将语音与搜索、外卖等业务整合,百度做语音的底气来自于两点:一是技术上应用深度学习大幅提升了识别准确率;二是百度拥有丰富的后端内容和服务。这意味着百度语音和图像搜索的发展对百度连接人与服务战略有很强的支撑效果,百度强调要做更具技术含量的O2O,例如支持通过语音点外卖。

百度语音搜索

图像搜索受益于二维码的普及,不过二维码是结构化的图形,机器的最终目标是像人眼一样去认识世界。人类90%的信息来自于视觉,“看”在信息获取上是主要方式。上传一张图片让机器识别并不是很自然,但如果机器都拥有摄像头和快速识别能力,其理解世界的方式将非常自然。将图像识别与后端知识库和各类服务打通的图像搜索,是一种所见即所得的自然搜索。

百度在这块进行了大量探索,例如识别一张图片中的物体并与广告内容结合,识别图片中的文字进行翻译,识别文本化的题目并解答,识别药品并介绍疗效以及导入药店……这些基于百度深度学习等后端人工智能技术,以及海量的图片数据库和内容知识图谱。

百度图像搜索

对于百度而言,语音和图像搜索的投入是站在交互角度来突破移动搜索现有形态。鉴于使用场景的特性,多媒体搜索对于百度连接人与服务战略将形成很强的支撑作用。服务搜索主要来自于移动搜索,而移动搜索未来将走向多媒体搜索。除了连接人与服务,百度还有一个战略是人工智能等前沿技术的布局,语音和图像搜索的基础正是来自于深度学习、大数据等技术成果的转化。所以语音和图像搜索成为百度将人工智能等研发成果转化到连接人与服务实践的“桥梁”。

多媒体搜索未来走向何方?

多媒体搜索依然还在起步阶段,远远没有文本搜索这样成熟,这意味着还有很多创新空间。从多媒体搜索探路者百度的动作来看,多媒体搜索在未来有以下发展趋势:

1、不同类型搜索相互结合。现在语音是语音、图像是图像,未来语音、图像、位置、文本乃至视频,各种形式的搜索会融合在一起,就像人与人的对话一样,你理解对方的意图即要听、又要看(环境、表情、手势……),可能还会结合上下文,总之是综合多类搜索来理解的。未来多媒体搜索同样会语音、图像等并用,例如你可以拍照之后问百度一句话,“这张图片中的狗是神马品质”,模拟人与人的交互。

2、多轮对话式搜索兴起。语音搜索现在大都是用户问一句,搜索引擎给出一个答案,图像搜索同样只能进行“一轮”。但人与人之间的对话是有“上下文”联系的,两人之前谈的内容,会影响之后双方的理解。因此语音、图像搜索未来会更倾向于“多轮”,即搜索引擎可以记住之前的多次交互过程,并结合此理解用户的语音或图像,例如用户可以先问“广州的天气怎么样”再问”那边有什么好吃的”,这样搜索引擎就可以理解“那边”是指代广州。百度已为此申请“多轮交互专利”,语音交互可进行需求引导,根据上下文和大数据分析智能纠错;Siri则初步实现了某些Case的多轮交互,比如语音调用联系人之后的二次选择。

3、解析速度决定用户体验。语音和图像搜索过去受限于计算速度以及网络速度,有一定延迟,随着云计算、大数据相关技术的成熟,识别速度得以快速提升。4G和WIFI的普及、带宽提速也逐步消除了网络障碍。不过识别速度依然还有提升空间,如果问人一句话,给人看一张图,要等几秒才有答案还是让人不爽,近期某手机厂商主打离线语音助手提升识别速度就反映了这个问题。搜索引擎正在通过离线识别等技术来提升解析速度,百度语音识别采取动态解码技术,实现了仅几十毫秒延时的快速识别。

4、基于场景的搜索服务能力。语音和图像搜索在复杂的场景中进行,搜索发起的时间不同,地点不同,用户的习惯、情绪有别,意味着背后有不同的需求,因此搜索引擎必须去识别用户所处场景,与其位置、环境、个人画像等数据结合起来分析,甚至尝试根据语速、语调去分析用户情感。同时整合丰富的服务对用户需求进行满足,比如当用户在外面搜索“麦当劳”应该首先推荐周边餐厅,在家里和办公室则优先推荐外卖服务……基于场景去满足用户的搜索需求。

5、无处不在的语音和图像搜索。现在百度语音图像搜索主要存在于网页版百度、手机百度、百度HD版等百度系产品中,但同时要注意的是百度已经通过开放平台开放其语音和图像搜索技术。这意味着许多应用和设备都有机会用到语音和图像搜索,它是一种开放能力,例如智能音箱可以用语音搜索歌曲并播放,汽车厂商在车内预装语音助手,智能电视通过语音操控和搜索节目……就是说,未来语音和图像搜索是无处不在的。

原文发布于微信公众号 - 罗超频道(luochaotmt)

原文发表时间:2015-09-08

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏企鹅号快讯

LeCun:就通用智能而言,人工智能甚至还不如老鼠

新智元编译 来源:PJ Media 编译整理: 张黔 弗格森 【新智元导读】AI到底有多智能?斯坦福大学、麻省理工学院、SRI International和其...

18810
来自专栏BestSDK

如何利用大数据进行预测性营销,看完这8个深度解答你就懂了

1、什么是精准营销,预测营销? 说到精准营销,不得不先提个性化的用户画像,我们针对每一类数据实体,进一步分解可落地的数据维度,刻画他/她的每一个特征,在聚集起来...

2.3K4
来自专栏专知

【业界实战】小米大数据总监司马云瑞详解小米用户画像的演进及应用解读(附报告pdf下载)

【导读】2017年 11月4日,大数据系统与应用研讨会在中科院计算所举行。会议邀请了中科院计算所程学旗老师和其他来自联想、京东、美团点评、小米等一线互联网公司大...

1.2K7
来自专栏CDA数据分析师

即将到来的AI革命之生存指南

大众媒体相信,人工智能(AI)会偷走你的工作,威胁到我们的生活。如果现在不做准备,我们可能会面临一个人工智能无处不在,并主宰着人类社会的未来。人工智能革命事实上...

1775
来自专栏悦思悦读

大数据技术在工业界的应用

大数据是近几年非常热门的一个概念。到底什么叫做大数据呢?简单而言,就是具备4V属性的数据:

3063
来自专栏机器人网

机器人设计师面临哪些挑战?

由于工业机器人在速度、强度、精度及灵活性方面拥有诸多优势,因此被越来越多地用于各类应用中。随着机器人变得越来越轻并且在较高的负载下工作,传统的机器人设计方法...

3668
来自专栏灯塔大数据

一个数据分析小白,要如何对产品进行分析?

什么是数据分析? 数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。在实际应用中,数据分...

2624
来自专栏企鹅号快讯

关于人工智能的探讨

提到人工智能,很多媒体、社会大众可能首先想到的是科幻电影中的「人工智能」形象。所以从事人工智能研究的人经常要面对一个很难回答,或是说很悲哀的问题:比人类更聪明的...

24110
来自专栏CDA数据分析师

经验 | 3要点解构数据分析的思维模式

数据分析(DataAnalysis)——这个词真的是如雷贯耳,装B一绝啊!甭管什么玩意,上来先整一通再说。“数据分析”甚是被提上了神坛,找工作或者聊点行业内的动...

2048

大数据能为您做什么?

当今世界,数据量激增。数据量是如此之多以至于谁掌握了数据,谁就掌握了财富创造的关键。接下来让我们来认真审视一下大数据的含义以及它能为我们做什么。

3644

扫码关注云+社区

领取腾讯云代金券