2014年百度瞄准图像搜索

罗超频道

发布于 2018-04-28 12:35:37

8260

发布于 2018-04-28 12:35:37

文章被收录于专栏：罗超频道

摘要：李彦宏早在三年前便宣称“读图时代”的到来，而瀑布流、Pinterest、Snapchat等图片应用更是掀起了图片应用之风，图片已经成为移动设备最重要的内容形态，与基于文本的网页势均力敌，图像搜索更加重要——搜索引擎做的事情本质是帮助人们从内容中找到想要的。

百度世界大会上李彦宏预测，“未来五年消费者使用语音、图像来表达需求的比例将超过50%，未来搜索方式一定会发生变革”。就在昨天百度Q3财报发布时，李彦宏对外透露，百度移动端流量超过PC，移动已成百度主阵地。百度最近一年陆陆续续推出了魔图、拍照翻译、作业帮、百度EYE等基于图像搜索技术的产品，这一切都在指向一个百度并未公布的事实：2014年百度在产品层面正在瞄准“图像搜索”。

百度一图一世界图像搜索技术开放日

百度瞄准图像搜索开始规模应用

图像搜索，可以简单地认为是“以图搜图”，但并非图像识别这么简单。它不只是改变了搜索的输入方式，而是全新的搜索理念：让搜索引擎成为与“大脑”直接连接的眼睛，帮助人们智能识别环境中的一切，理解人类意图直接给出答案，整个过程中用户不需要说什么或者输入什么，只需要让搜索引擎“看”就可以了。

在去年愚人节期间百度EYE的消息爆出之时笔者便曾撰文《视觉搜索是移动搜索的未来》，百度认同此理，与Apple、Google和微软三大海外巨头凭借着Siri、Now、Cortana大力做语音搜索不同，百度似乎更倾向于用“看”来满足人类移动时代的搜索需求。

人类既然可以通过声音驱动设备各种语音助手，又怎会忽略另一个人类与外部环境的核心交互能力——视觉呢？相关统计显示，人类有近90%的信息获取来自于双眼。李彦宏早在三年前便宣称“读图时代”的到来，而瀑布流、Pinterest、Snapchat等图片应用更是掀起了图片应用之风，图片已经成为移动设备最重要的内容形态，与基于文本的网页势均力敌，图像搜索更加重要——搜索引擎做的事情本质是帮助人们从内容中找到想要的。

移动设备摄像头的分辨率不断提升，Intel等公司已经推出具有“深度识别”的摄像头可以识别立体化的图像意味着摄像头技术本身在升级。这些则为图像搜索创造了物理条件。

图像搜索时代已经来临。与Google将这一搜索形态寄望于Google Glass这一尚未普及的设备不同，百度在软件层面基于成熟产品去应用图像搜索技术，比如手机百度、百度魔图、百度翻译、百度作业帮等产品，从应用范围来看，百度在图像搜索上已开始领先。

深度学习破解图像搜索待解技术难题

Google在2009年分别推出网页版Google相似图片搜索和Google Goggles，10年百度则推出识图搜索（shitu.baidu.com)涉水图像搜索，12年底推出全网首个人脸搜索引擎。这些产品更多是“图像匹配引擎”，它们在做的是识别并找到相似图片，而不是去理解特定场景某张图片的意图，并且面向全网寻求答案：可能是图片，更可能是翻译结果、百科知识、购买链接甚至附近的商铺。

如果把图像搜索等同于图片识别，它并不算什么高超的技术。不同领域的图像识别技术已趋于成熟，典型应用有照片管理软件、照片美化软件、公共监控设施、人脸解锁应用……到处都是图像识别技术，智能摄像头Dropcam还可以做到区分闯入监控区域的是陌生人还是宠物。

识别只是图像搜索的第一步。第二步是理解，第三步是检索。就像Siri和文本搜索一样，获得用户输入的内容比如语音转文字，然后才是理解用户意图，结合用户画像、用户历史记录、用户位置属性等个性化信息，最后根据所理解的用户意图去索引中寻找“答案”。每一步都存在着技术难点。这是为什么李彦宏在2012年KDD（知识发现世界年会）上提出9大待解技术问题，“基于内容的的视觉搜索”排在第3位。

对于平面和刚体内容的识别已经可以做到较高的识别率比如人脸、书本、CD、菜单等平面内容，召回率近90%；对于穿着的服装、行动的动物、周遭的街景、市场的蔬菜这些“非刚体”“非平面”内容，识别率是瓶颈。不过，更大的难点在于“理解用户意图”，就是要能看懂。比如用户在超市搜索蔬菜是要了解菜价；在家里可能就是要问菜谱了。搜索引擎必须要理解用户意图。如果没有这一步就只能做“相似图片搜索”这样的初级功能。

百度首席科学家吴恩达，原Google Brain负责人的“识别猫”实验闻名遐迩，它让机器通过深度学习从一堆视频中理解了猫是什么并找出了含有猫的视频。这实际上已经告诉了我们“理解图片”这个难题的答案：深度学习。

深度学习可以模拟人脑分层思考过程，去识别图片中的部位和意图，同时通过无监督的样本训练等方式升级算法，提升识别准确率和提高理解能力，做到“能认出”和“能看懂”。对应到我们自身的“看图过程”不难理解为何深度学习可以让机器识别和理解图像：摄像头是图像搜索的眼睛，基于云的深度学习神经网络就是图像搜索的大脑。

未来的图像搜索会怎样？第三只眼

基于手机App的图像搜索过程还算不上最自然，因为它的搜索流程并没有做到与人眼一模一样，人们需要在搜索时再去选择或者拍摄照片，而不是所见即所得——Siri就做到了对话式的自然搜索。Google Glass和百度Eye的思路是人们佩戴便携设备，看哪里就搜索哪里，比如去买菜时看着蔬菜，去逛街时看着招牌，在地铁盯着美女的脸，均可启动搜索，没有“拍摄”环节。

这隐含了两个改变：一是图像搜索从被动到主动；二是图像搜索可以做到自动理解它看到的一切并适时启动搜索，让搜索过程更加自然。

还有第三个重点是动态图像搜索。当前图像搜索都是静态图像，而不是动态视频。人眼在观看和理解环境时，面对的却是动态内容，本质上是海量静态图片“帧”的集合，图像搜索发展到最后必然是可以理解动态视频，就像吴恩达的猫识别实验一样，这时候，移动摄像头基本就与人眼一样“智能”了。这与百度旗下的小度i耳目智能摄像头有着一定的结合点。

手机百度在做切实可行的图像搜索：基于静态图片的、用户主动发起的。目前还需要培养用户习惯，用户使用越多贡献越多图片和行为数据，帮助图像搜索进化。随着动态图像搜索、视频图像搜索的技术成熟，未来手机百度，或者基于百度的新设备，就会真正成为用户的第三只眼，实现移动场景下对“线下实体”的搜索，比如商铺、商品、餐厅、菜品、图书、环境、招牌、景点甚至地铁对面的美女。

SuperSofter是阿超运营的微信，所有文章均会在此存档。SuperSofter是最大自媒体联盟WeMedia成员，关注SuperSofter与我一起围观冷暖科技世界。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2014-10-31，如有侵权请联系 cloudcommunity@tencent.com 删除

其他

本文分享自罗超频道微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

其他

登录后参与评论

0 条评论

热度

2014年百度瞄准图像搜索

2014年百度瞄准图像搜索

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐