迪斯尼利用人工智能实现声音与图片之间的关联

美国迪斯尼研究中心发报告称,其与瑞士苏黎世联邦理工学院合作利用人工智能设计出了能自主匹配图像和声音的系统。

儿童可以根据不同动物的声音从图书中学习关联图像和声音,但构建能够自主学习的计算机视觉系统并非易事。然而,美国迪斯尼研究中心和苏黎世联邦理工学院使用人工智能技术设计了一款能够自主学习匹配图像和声音的系统。例如,给出一张汽车图片,该系统会自动发出汽车引擎的声音。

迪斯尼研究中心研究人员指出,能够分辨汽车声音、餐盘碎裂声或关门声的人工智能系统有许多用途,如为电影添加声音效果或向视觉障碍者提供音频反馈。

为了完成这一具有挑战性的任务,研究团队使用了视频数据集。研究人员称,“有音轨的视频为我们提供了一种学习声音与图像之间相关性的自然方式。配备麦克风的摄像机可捕获同步的音频和视频信息,原则上,这些视频的每一帧都可以作为学习材料”。其中一个关键的挑战是视频中通常含有许多与视觉内容无关的声音,例如背景音乐、旁白叙事、屏幕外噪声和声音效果,这些都可能混淆学习方案。迪斯尼研究中心研究人员解释道:“与视频图像相关的声音可能非常模糊,通过找出过滤这些干扰声音的方法,我们的研究团队已经朝着计算机视觉的新应用迈出了一大步。”

研究人员指出,如果有一个汽车的视频合集,包含汽车真实引擎声的视频将具有在多个视频中共同重现的音频特征,而一些视频中带有的无关声音通常不是其他视频中能找到的共同特征,因此可以过滤掉。

一旦包含不相关信息的视频帧被过滤掉,计算机算法就能学习声音与图像的相关关系。随后的测试表明,当呈现图像时,该系统通常能够发出相应的声音。用户研究发现,系统返回的结果比使用未过滤原始视频集学习的结果更好。

原文发布于微信公众号 - 人工智能快报(AI_News)

原文发表时间:2016-12-05

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏专知

机器学习模型在工业界真的创造价值了么?

【导读】看到标题你可能会有疑惑,因为我们可能经常听到的是“你在实际应用中如何使用机器学习模型的”。本文正是数据科学家Venkat Raman关于“机器学习在工业...

3486
来自专栏携程技术中心

搭建技术分享平台,携程技术中心深度学习Meetup回顾

今天由携程技术中心主办的深度学习Meetup在凌空SOHO举办。作为上海最顶级的深度学习大会,活动吸引了BI、机器学习、大数据等领域的工程师和高校教授们参与,会...

3216
来自专栏新智元

IBM 最强神经形态芯片电脑出货,与人类大脑又近一步

人类觉得电脑厉害,殊不知最厉害的电脑是人脑。IBM说,我们想做可以像人类一样做决策的电脑。本周,NS16e,IBM以人类大脑为灵感的最大电脑出货,目标远大。 N...

3417
来自专栏PPV课数据科学社区

是的,人工智能就是分析

关于人工智能究竟是什么,以及人工智能的学科应该如何分类,似乎存在一些混淆。人工智能是分析学的一种形式,还是一门与分析学不同的全新学科?我坚信人工智能与预测分析和...

2654
来自专栏ATYUN订阅号

Kebotix利用机器学习和机器人加速化合物和材料设计

机器人手臂将移液器浸入培养皿中,并将少量明亮的液体转移到位于另一台机器前面的许多容器中。当所有样品都准备好后,第二台机器测试它们的光学特性,并将结果输送到控制臂...

734
来自专栏人工智能快报

IBM类脑计算机正式上市

据《计算机世界》网站2016年3月31日报道,IBM迄今为止最大型的类脑计算机NS16e正式上市。首个采购NS16e的买家是美国劳伦斯·利弗莫尔国家实验室,IB...

3605
来自专栏新智元

【DeepMind&OpenAI】利用人类偏好深度强化学习,机器学会后空翻

【新智元导读】DeepMind 和 OpenAI 合作的新研究,让没有技术经验的人类给强化学习系统提供反馈,从而避免事先为系统指定目标的步骤。在某些情况下,这种...

33112
来自专栏大咖说

阿里盖坤:用深度学习打造真正的智能化广告系统

文章原创首发于微信公众号「 TGO 鲲鹏会」,原文地址:阿里盖坤:用深度学习打造真正的智能化广告系统

2093
来自专栏小鹏的专栏

开启聊天机器人模式

聊天机器人系统框架图 今天看到了一篇关于聊天机器人的一个不错的资源汇总: https://www.52ml.net/20510.html 进去看看先大概了解了...

1926
来自专栏大数据文摘

机器学习行业盛会-旧金山机器学习研讨会上的10点思考

1305

扫码关注云+社区