2014年百度瞄准图像搜索

摘要:李彦宏早在三年前便宣称“读图时代”的到来,而瀑布流、Pinterest、Snapchat等图片应用更是掀起了图片应用之风,图片已经成为移动设备最重要的内容形态,与基于文本的网页势均力敌,图像搜索更加重要——搜索引擎做的事情本质是帮助人们从内容中找到想要的。

百度世界大会上李彦宏预测,“未来五年消费者使用语音、图像来表达需求的比例将超过50%,未来搜索方式一定会发生变革”。就在昨天百度Q3财报发布时,李彦宏对外透露,百度移动端流量超过PC,移动已成百度主阵地。百度最近一年陆陆续续推出了魔图、拍照翻译、作业帮、百度EYE等基于图像搜索技术的产品,这一切都在指向一个百度并未公布的事实:2014年百度在产品层面正在瞄准“图像搜索”。

百度一图一世界图像搜索技术开放日

百度瞄准图像搜索开始规模应用

图像搜索,可以简单地认为是“以图搜图”,但并非图像识别这么简单。它不只是改变了搜索的输入方式,而是全新的搜索理念:让搜索引擎成为与“大脑”直接连接的眼睛,帮助人们智能识别环境中的一切,理解人类意图直接给出答案,整个过程中用户不需要说什么或者输入什么,只需要让搜索引擎“看”就可以了。

在去年愚人节期间百度EYE的消息爆出之时笔者便曾撰文《视觉搜索是移动搜索的未来》,百度认同此理,与Apple、Google和微软三大海外巨头凭借着Siri、Now、Cortana大力做语音搜索不同,百度似乎更倾向于用“看”来满足人类移动时代的搜索需求。

人类既然可以通过声音驱动设备各种语音助手,又怎会忽略另一个人类与外部环境的核心交互能力——视觉呢?相关统计显示,人类有近90%的信息获取来自于双眼。李彦宏早在三年前便宣称“读图时代”的到来,而瀑布流、Pinterest、Snapchat等图片应用更是掀起了图片应用之风,图片已经成为移动设备最重要的内容形态,与基于文本的网页势均力敌,图像搜索更加重要——搜索引擎做的事情本质是帮助人们从内容中找到想要的。

移动设备摄像头的分辨率不断提升,Intel等公司已经推出具有“深度识别”的摄像头可以识别立体化的图像意味着摄像头技术本身在升级。这些则为图像搜索创造了物理条件。

图像搜索时代已经来临。与Google将这一搜索形态寄望于Google Glass这一尚未普及的设备不同,百度在软件层面基于成熟产品去应用图像搜索技术,比如手机百度、百度魔图、百度翻译、百度作业帮等产品,从应用范围来看,百度在图像搜索上已开始领先。

深度学习破解图像搜索待解技术难题

Google在2009年分别推出网页版Google相似图片搜索和Google Goggles,10年百度则推出识图搜索(shitu.baidu.com)涉水图像搜索,12年底推出全网首个人脸搜索引擎。这些产品更多是“图像匹配引擎”,它们在做的是识别并找到相似图片,而不是去理解特定场景某张图片的意图,并且面向全网寻求答案:可能是图片,更可能是翻译结果、百科知识、购买链接甚至附近的商铺。

如果把图像搜索等同于图片识别,它并不算什么高超的技术。不同领域的图像识别技术已趋于成熟,典型应用有照片管理软件、照片美化软件、公共监控设施、人脸解锁应用……到处都是图像识别技术,智能摄像头Dropcam还可以做到区分闯入监控区域的是陌生人还是宠物。

识别只是图像搜索的第一步。第二步是理解,第三步是检索。就像Siri和文本搜索一样,获得用户输入的内容比如语音转文字,然后才是理解用户意图,结合用户画像、用户历史记录、用户位置属性等个性化信息,最后根据所理解的用户意图去索引中寻找“答案”。每一步都存在着技术难点。这是为什么李彦宏在2012年KDD(知识发现世界年会)上提出9大待解技术问题,“基于内容的的视觉搜索”排在第3位。

对于平面和刚体内容的识别已经可以做到较高的识别率比如人脸、书本、CD、菜单等平面内容,召回率近90%;对于穿着的服装、行动的动物、周遭的街景、市场的蔬菜这些“非刚体”“非平面”内容,识别率是瓶颈。不过,更大的难点在于“理解用户意图”,就是要能看懂。比如用户在超市搜索蔬菜是要了解菜价;在家里可能就是要问菜谱了。搜索引擎必须要理解用户意图。如果没有这一步就只能做“相似图片搜索”这样的初级功能。

百度首席科学家吴恩达,原Google Brain负责人的“识别猫”实验闻名遐迩,它让机器通过深度学习从一堆视频中理解了猫是什么并找出了含有猫的视频。这实际上已经告诉了我们“理解图片”这个难题的答案:深度学习。

深度学习可以模拟人脑分层思考过程,去识别图片中的部位和意图,同时通过无监督的样本训练等方式升级算法,提升识别准确率和提高理解能力,做到“能认出”和“能看懂”。对应到我们自身的“看图过程”不难理解为何深度学习可以让机器识别和理解图像:摄像头是图像搜索的眼睛,基于云的深度学习神经网络就是图像搜索的大脑。

未来的图像搜索会怎样?第三只眼

基于手机App的图像搜索过程还算不上最自然,因为它的搜索流程并没有做到与人眼一模一样,人们需要在搜索时再去选择或者拍摄照片,而不是所见即所得——Siri就做到了对话式的自然搜索。Google Glass和百度Eye的思路是人们佩戴便携设备,看哪里就搜索哪里,比如去买菜时看着蔬菜,去逛街时看着招牌,在地铁盯着美女的脸,均可启动搜索,没有“拍摄”环节。

这隐含了两个改变:一是图像搜索从被动到主动;二是图像搜索可以做到自动理解它看到的一切并适时启动搜索,让搜索过程更加自然。

还有第三个重点是动态图像搜索。当前图像搜索都是静态图像,而不是动态视频。人眼在观看和理解环境时,面对的却是动态内容,本质上是海量静态图片“帧”的集合,图像搜索发展到最后必然是可以理解动态视频,就像吴恩达的猫识别实验一样,这时候,移动摄像头基本就与人眼一样“智能”了。这与百度旗下的小度i耳目智能摄像头有着一定的结合点。

手机百度在做切实可行的图像搜索:基于静态图片的、用户主动发起的。目前还需要培养用户习惯,用户使用越多贡献越多图片和行为数据,帮助图像搜索进化。随着动态图像搜索、视频图像搜索的技术成熟,未来手机百度,或者基于百度的新设备,就会真正成为用户的第三只眼,实现移动场景下对“线下实体”的搜索,比如商铺、商品、餐厅、菜品、图书、环境、招牌、景点甚至地铁对面的美女。

SuperSofter是阿超运营的微信,所有文章均会在此存档。SuperSofter是最大自媒体联盟WeMedia成员,关注SuperSofter与我一起围观冷暖科技世界。

原文发布于微信公众号 - 罗超频道(luochaotmt)

原文发表时间:2014-10-31

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏大数据文摘

网络直播被严查,机器如何帮助鉴别小黄图?

2259
来自专栏机器之心

业界 | NovuMind异构智能核心技术引领智联网

3027
来自专栏人工智能头条

人工智能与认知科学论坛:类脑智能、混合智能及应用前景的探讨

2066
来自专栏机器人网

科学家用AI开发读心术,你那些不可描述将无所遁形

研究人员正在扫描人脑和从中提取可用信息方面取得重大进展。这一技术被称为脑解码,可以帮助治愈一些失明病症,利用大脑作为输入设备来控制电脑和其他设备。根据Engad...

2564
来自专栏人工智能头条

智齿科技CTO吴立楠:NLP在对话系统中的应用

1964
来自专栏AI科技评论

细拆苹果AI战略蓝图,看离领跑全球还有多远?

AI科技评论按:7月份,在经历了长达几个月外界对苹果AI技术落后的质疑后,苹果又有了一些新动作,首先是在7月20日上线了苹果机器学习官方博客(Apple Mac...

2715
来自专栏机器学习算法与Python学习

干货 | 高盛:2017人工智能报告中文版(附PDF版下载)

关键字全网搜索最新排名 【机器学习算法】:排名第一 【机器学习】:排名第一 【Python】:排名第三 【算法】:排名第四 高盛人工智能报告中文版 人工智能是制...

38210
来自专栏数据派THU

独家 | 一文读懂社交网络分析-下(应用、前沿、学习资源)

本文主要阐述: 社交网络分析的应用 社交网络前沿研究 学习资料 参考资料 浏览前三章的内容请见上篇(2017年9月26日头条)。 四. 社交网络分析的应用 1....

36911
来自专栏机器学习原理

2018苏州GTC会议笔记主题演讲可解释性、鲁棒性和公平性:THUIR 个性化推荐研究进展 [CH81402]机器学习的发展和行业应用前景 [CH8502]用 TensorFlow 加速 AI [CH

NVIDIA 创始人兼 CEO 黄仁勋先生关于计算领域之未来的主题演讲。 演讲人:黄仁勋 NVIDIA 创始人兼 CEO 2018/11/21 周三 1...

1374
来自专栏大数据挖掘DT机器学习

数据挖掘入门与实战 历史文章源代码打包下载

? ? 失效了。最近终于有时间整理下来。 ? 如何入门数据挖掘/机器学习/数据科学? 我认为有几个大方面 1)学好python。 现在几乎所以公司的数据都...

3857

扫码关注云+社区