通过照片内容搜图,Facebook这个新技能是如何实现的?

△ 搜“running bay to breakers”,就能看到人群奔向海浪的照片,无论他们给照片起的名字是什么。

现在,你可以在Facebook上通过描述照片中的内容来搜索图片了:手工添加的图片标题和标签都不再重要。

这个功能的背后,是Facebook计算机视觉平台Lumos,他们在去年四月开发了这一平台,是为了把Facebook上的图片描述给有视觉障碍的用户听。

新功能详解

△ Facebook如何从图片中识别内容、提取信息

为了实现这个功能,Facebook使用了上百万张照片来训练深度神经网络,好在他们的平台上已经有数十亿张加了标题的图片。Facebook建立的模型通过某种概率性将搜索语句与从图片提取的特征匹配起来。

将搜索词和照片匹配起来之后,Facebook的模型使用图片本身和原有搜索中的信息来对搜索结果进行排序,另外,他们在排序中还考虑到了照片的多样性,以确保用户不会连续看50张照片都是同一个东西,只在焦距和角度上略有不同。

最终,Facebook会将这一技术用于它日益扩大的视频库。这一技术可能用在个人情境中,比如说帮用户搜索朋友的视频,找到她吹灭生日蜡烛的那一刻;也可能用于商业情境中,有助于提升Facebook信息流广告营收的天花板。

从图片和视频中提取内容信息为改善匹配提供了一个初始向量。最终,我们将看到一个完全整合的系统,在这个系统中,我们可以提取信息,比如说从视频中搜索一件你非常喜欢的裙子,然后把它链接到市场上的商品,甚至把你和广告合作商直接连接起来以增进用户体验、保持营收增长。

为初心升个级

在新图片搜索功能发布的同时,Facebook还对Lumos的初心:“自动替换文本”功能进行了升级,让视障用户能听到更生动的图片描述。

△ 图片来自Facebook

去年四月推出时,这个为图片生成文字描述的工具只能告诉用户图片里有等、台阶等物体,但不太会描述物体的动作。

为了解决这个问题,Facebook的一个团队手工标注了平台上的130000张照片。现在,对于上面的图片,视障用户听到的描述将从原来的“人和舞台”变成“人们在舞台上跳舞”。

计算机视觉的应用竞赛

把计算机视觉领域的技术发展用在已有的产品上,Facebook并不是独一份。

Pinterest的视觉搜索功能也在持续改进,现在用户可以通过图片中的物体来搜索图片。

Google则在去年秋天开源了他们的图片自动描述模型,这一模型能识别物体、对动作进行分类,准确率高达90%。开源之后,这一模型在机器学习开发者中大受欢迎,累积了不错的声望。点击文章下方的“阅读原文”,可以看到这个模型的开源代码。

编译 | 量子位 李林

原文发布于微信公众号 - 量子位(QbitAI)

原文发表时间:2017-02-03

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏新智元

重磅!基于三维集成芯片的光量子计算原型机问世,上海交大金贤敏团队研制

10 月 29 日,最新一期国际权威学术期刊《自然•光子学》(影响因子:37.85) 以“Experimental quantum fast hitting o...

12250
来自专栏新智元

Deepmind“好奇心”强化学习新突破!改变奖励机制,让智能体不再“兜圈子”

强化学习是机器学习中最活跃的研究领域之一,在该领域的研究环境下,人工智能体(agent)做到正确的事情时会获得积极的奖励,否则获得负面的奖励。

16530
来自专栏数据派THU

送你9个常用的人脸数据库(附链接、报告)

由FERET项目创建,此图像集包含大量的人脸图像,并且每幅图中均只有一个人脸。该集中,同一个人的照片有不同表情、光照、姿态和年龄的变化。包含1万多张多姿态和光照...

3.8K50
来自专栏CDA数据分析师

一名合格的机器学习工程师需要具备的5项基本技能,你都get了吗?

你是否对机器学习充满兴趣呢?其实到目前为止,每天有越来越多的工程师开始将好奇的目光转向机器学习领域。实际上,你会发现现在没有哪一个领域比机器学习能引起更多的曝光...

20490
来自专栏AI科技大本营的专栏

一文详解知识图谱关键技术与应用 | 公开课笔记

本课程从知识图谱的历史由来开展,讲述知识图谱与人工智能的关系与现状;知识图谱辐射至各行业领域的应用;在知识图谱关键技术概念与工具的实践应用中,本课程也会讲解知识...

25350
来自专栏量子位

纯新手入门机器/深度学习自学指南(附一个月速成方案)

准备用三个月入门,和想要一个月速成,肯定是截然不同的路径。当然我建议大家稳扎稳打,至少可以拿出五个月的时间来学好机器学习的基础知识。

12010
来自专栏算法+

音频识别算法思考与阶段性小结

主要是 回复 给我发邮件以及QQ上询问的朋友们的一些疑问和需求,这里稍作回复一下。

47410
来自专栏机器之心

如何做好论文评审工作?CVPR 2019程序委员会有话说

作者:Derek Hoiem, Gang Hua, Abhinav Gupta, and Zhuowen Tu

14740
来自专栏AI科技评论

深度丨AI 从业者该如何选择深度学习开源框架(6000字长文)

编者按:本文内容来自微软美国总部机器学习科学家彭河森博士在雷锋网硬创公开课的分享。 正如程序语言一样,深度学习开源框架同样各有优劣和适用的场景,那么 AI 从业...

39360

最佳机器学习入门级资源

这是一篇非常难写的文章,同时我希望这篇文章对于入门学习的朋友是真正有价值、有帮助的。

233110

扫码关注云+社区

领取腾讯云代金券