迪斯尼利用人工智能实现声音与图片之间的关联

人工智能快报

发布于 2018-03-07 16:28:48

6180

发布于 2018-03-07 16:28:48

文章被收录于专栏：人工智能快报

美国迪斯尼研究中心发报告称，其与瑞士苏黎世联邦理工学院合作利用人工智能设计出了能自主匹配图像和声音的系统。

儿童可以根据不同动物的声音从图书中学习关联图像和声音，但构建能够自主学习的计算机视觉系统并非易事。然而，美国迪斯尼研究中心和苏黎世联邦理工学院使用人工智能技术设计了一款能够自主学习匹配图像和声音的系统。例如，给出一张汽车图片，该系统会自动发出汽车引擎的声音。

迪斯尼研究中心研究人员指出，能够分辨汽车声音、餐盘碎裂声或关门声的人工智能系统有许多用途，如为电影添加声音效果或向视觉障碍者提供音频反馈。

为了完成这一具有挑战性的任务，研究团队使用了视频数据集。研究人员称，“有音轨的视频为我们提供了一种学习声音与图像之间相关性的自然方式。配备麦克风的摄像机可捕获同步的音频和视频信息，原则上，这些视频的每一帧都可以作为学习材料”。其中一个关键的挑战是视频中通常含有许多与视觉内容无关的声音，例如背景音乐、旁白叙事、屏幕外噪声和声音效果，这些都可能混淆学习方案。迪斯尼研究中心研究人员解释道：“与视频图像相关的声音可能非常模糊，通过找出过滤这些干扰声音的方法，我们的研究团队已经朝着计算机视觉的新应用迈出了一大步。”

研究人员指出，如果有一个汽车的视频合集，包含汽车真实引擎声的视频将具有在多个视频中共同重现的音频特征，而一些视频中带有的无关声音通常不是其他视频中能找到的共同特征，因此可以过滤掉。

一旦包含不相关信息的视频帧被过滤掉，计算机算法就能学习声音与图像的相关关系。随后的测试表明，当呈现图像时，该系统通常能够发出相应的声音。用户研究发现，系统返回的结果比使用未过滤原始视频集学习的结果更好。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2016-12-05，如有侵权请联系 cloudcommunity@tencent.com 删除

人工智能

本文分享自人工智能快报微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

人工智能

登录后参与评论

0 条评论

热度

迪斯尼利用人工智能实现声音与图片之间的关联

迪斯尼利用人工智能实现声音与图片之间的关联

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐