DeepMind AI 是如何识别音视频概念的? | 2分钟读论文

来源 / Two Minute Papers

翻译 / 林立宏

校对 / J叔

整理 / 雷锋字幕组

Look, Listen and Learn

熟悉机器学习的朋友们对“监督学习”的概念一定不会陌生。顾名思义,监督学习就像是老师坐在学生一侧,予以指导跟引路。同样地,我们给算法提供一堆的图片或者其他问题文件,并且提供一些额外信息。然后给学习算法一些它之前从来没有见过的图片,使其能够正确地进行分类。

监督学习需要我们对数据集进行标注,在信息海量的互联网时代,尽管我们可以通过研究人员乃至众包的方式来对图片进行标注,监督学习仍然算是一种费时费力的方式,如果有一种算法可以“无师自通”,即便没有标注,也能自主学习,岂不是要有效率得多?

本期论文就这一思路进行了进一步的探讨和研究。无监督学习领域取消了标注的过程,直接给算法一堆图片或者其他的任意多媒体文件,没有“老师”来监督这个过程,算法自己学习。论文中这样举例:看到可视化子网这一层,算法看到有人在弹手风琴时,神经元会变得非常兴奋,每个神经元在层中都属于不同的对象类,实在是了不起。

本期论文的第一部分表述道,无监督学习不仅能够分类视频帧,还能绘制语义热图,告诉我们,视频中哪部分画面跟我们听到的内容是相关联的。它们在视频部分运行了一个视觉子网和一个用于学习声音的分离的音频子网,最后再将它们整合到一起。

由此我们进入到了论文中的第二部分,即算法是如何猜中音频和视频是否相应的。算法看到一个人在拉小提琴,它识别出视频中的节拍,然后判断出音频跟视频是否相对应。该音频子网还学习了人声,水声,风声,音乐声,现场音乐会等等各种声音,它声音分类的水准已经十分接近人类了。这些不俗的研究成果,都要感谢scratch训练处的两个神经网络,它们并不是“监督学习”的成果,而是无师自通,大显身手。

无监督学习在过去的几十年里一直在持续发展,但是像本期论文这样振奋人心的研究成果并不多见,可以说是意义深远,希望在不久的将来,会有更多更好的研究成果,一直不断推动机器学习领域的发展。

▷ 观看论文解读大概需要 4 分钟

学霸们还请自行阅读论文以获得更多细节

论文原址

https://arxiv.org/abs/1705.08168

本文分享自微信公众号 - AI研习社(okweiwu)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2017-10-13

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏钱塘大数据

中国互联网协会发布:《2018中国互联网发展报告》

在2018中国互联网大会闭幕论坛上,中国互联网协会正式发布《中国互联网发展报告2018》(以下简称《报告》)。《中国互联网发展报告》是由中国互联网协会与中国互联...

13250
来自专栏Ken的杂谈

【系统设置】CentOS 修改机器名

17630
来自专栏haifeiWu与他朋友们的专栏

复杂业务下向Mysql导入30万条数据代码优化的踩坑记录

从毕业到现在第一次接触到超过30万条数据导入MySQL的场景(有点low),就是在顺丰公司接入我司EMM产品时需要将AD中的员工数据导入MySQL中,因此楼主负...

27240
来自专栏怀英的自我修炼

考研英语-1-导学

英二图表作文要重视。总体而言,英语一会比英语二难点。不过就写作而言,英语二会比英语一有难度,毕竟图表作文并不好写。

11410
来自专栏前端桃园

知识体系解决迷茫的你

最近在星球里群里都有小伙伴说道自己对未来的路比较迷茫,一旦闲下来就不知道自己改干啥,今天我这篇文章就是让你觉得一天给你 25 个小时你都不够用,觉得睡觉都是浪费...

19940
来自专栏FSociety

SQL中GROUP BY用法示例

GROUP BY我们可以先从字面上来理解,GROUP表示分组,BY后面写字段名,就表示根据哪个字段进行分组,如果有用Excel比较多的话,GROUP BY比较类...

5.1K20
来自专栏钱塘大数据

理工男图解零维到十维空间,烧脑已过度,受不了啦!

让我们从一个点开始,和我们几何意义上的点一样,它没有大小、没有维度。它只是被想象出来的、作为标志一个位置的点。它什么也没有,空间、时间通通不存在,这就是零维度。

27830
来自专栏微信公众号:小白课代表

不只是软件,在线也可以免费下载百度文库了。

不管是学生,还是职场员工,下载各种文档几乎是不可避免的,各种XXX.docx,XXX.pptx更是家常便饭,人们最常用的就是百度文库,豆丁文库,道客巴巴这些下载...

43530
来自专栏腾讯社交用户体验设计

ISUX Xcube智能一键生成H5

50920
来自专栏腾讯高校合作

【倒计时7天】2018教育部-腾讯公司产学合作协同育人项目申请即将截止!

15420

扫码关注云+社区

领取腾讯云代金券

年度创作总结 领取年终奖励