DeepMind AI 是如何识别音视频概念的？ | 2分钟读论文

AI研习社

发布于 2018-03-19 11:05:52

8990

发布于 2018-03-19 11:05:52

文章被收录于专栏：AI研习社

来源 / Two Minute Papers

翻译 / 林立宏

校对 / J叔

整理 / 雷锋字幕组

Look, Listen and Learn

熟悉机器学习的朋友们对“监督学习”的概念一定不会陌生。顾名思义，监督学习就像是老师坐在学生一侧，予以指导跟引路。同样地，我们给算法提供一堆的图片或者其他问题文件，并且提供一些额外信息。然后给学习算法一些它之前从来没有见过的图片，使其能够正确地进行分类。

监督学习需要我们对数据集进行标注，在信息海量的互联网时代，尽管我们可以通过研究人员乃至众包的方式来对图片进行标注，监督学习仍然算是一种费时费力的方式，如果有一种算法可以“无师自通”，即便没有标注，也能自主学习，岂不是要有效率得多？

本期论文就这一思路进行了进一步的探讨和研究。无监督学习领域取消了标注的过程，直接给算法一堆图片或者其他的任意多媒体文件，没有“老师”来监督这个过程，算法自己学习。论文中这样举例：看到可视化子网这一层，算法看到有人在弹手风琴时，神经元会变得非常兴奋，每个神经元在层中都属于不同的对象类，实在是了不起。

本期论文的第一部分表述道，无监督学习不仅能够分类视频帧，还能绘制语义热图，告诉我们，视频中哪部分画面跟我们听到的内容是相关联的。它们在视频部分运行了一个视觉子网和一个用于学习声音的分离的音频子网，最后再将它们整合到一起。

由此我们进入到了论文中的第二部分，即算法是如何猜中音频和视频是否相应的。算法看到一个人在拉小提琴，它识别出视频中的节拍，然后判断出音频跟视频是否相对应。该音频子网还学习了人声，水声，风声，音乐声，现场音乐会等等各种声音，它声音分类的水准已经十分接近人类了。这些不俗的研究成果，都要感谢scratch训练处的两个神经网络，它们并不是“监督学习”的成果，而是无师自通，大显身手。

无监督学习在过去的几十年里一直在持续发展，但是像本期论文这样振奋人心的研究成果并不多见，可以说是意义深远，希望在不久的将来，会有更多更好的研究成果，一直不断推动机器学习领域的发展。

▷ 观看论文解读大概需要 4 分钟

学霸们还请自行阅读论文以获得更多细节

论文原址

https://arxiv.org/abs/1705.08168

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2017-10-13，如有侵权请联系 cloudcommunity@tencent.com 删除

其他

本文分享自 AI研习社微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

其他

登录后参与评论

0 条评论

热度

DeepMind AI 是如何识别音视频概念的？ | 2分钟读论文

DeepMind AI 是如何识别音视频概念的？ | 2分钟读论文

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐