专栏首页人工智能快报迪斯尼利用人工智能实现声音与图片之间的关联

迪斯尼利用人工智能实现声音与图片之间的关联

美国迪斯尼研究中心发报告称,其与瑞士苏黎世联邦理工学院合作利用人工智能设计出了能自主匹配图像和声音的系统。

儿童可以根据不同动物的声音从图书中学习关联图像和声音,但构建能够自主学习的计算机视觉系统并非易事。然而,美国迪斯尼研究中心和苏黎世联邦理工学院使用人工智能技术设计了一款能够自主学习匹配图像和声音的系统。例如,给出一张汽车图片,该系统会自动发出汽车引擎的声音。

迪斯尼研究中心研究人员指出,能够分辨汽车声音、餐盘碎裂声或关门声的人工智能系统有许多用途,如为电影添加声音效果或向视觉障碍者提供音频反馈。

为了完成这一具有挑战性的任务,研究团队使用了视频数据集。研究人员称,“有音轨的视频为我们提供了一种学习声音与图像之间相关性的自然方式。配备麦克风的摄像机可捕获同步的音频和视频信息,原则上,这些视频的每一帧都可以作为学习材料”。其中一个关键的挑战是视频中通常含有许多与视觉内容无关的声音,例如背景音乐、旁白叙事、屏幕外噪声和声音效果,这些都可能混淆学习方案。迪斯尼研究中心研究人员解释道:“与视频图像相关的声音可能非常模糊,通过找出过滤这些干扰声音的方法,我们的研究团队已经朝着计算机视觉的新应用迈出了一大步。”

研究人员指出,如果有一个汽车的视频合集,包含汽车真实引擎声的视频将具有在多个视频中共同重现的音频特征,而一些视频中带有的无关声音通常不是其他视频中能找到的共同特征,因此可以过滤掉。

一旦包含不相关信息的视频帧被过滤掉,计算机算法就能学习声音与图像的相关关系。随后的测试表明,当呈现图像时,该系统通常能够发出相应的声音。用户研究发现,系统返回的结果比使用未过滤原始视频集学习的结果更好。

本文分享自微信公众号 - 人工智能快报(AI_News),作者:人工智能快报

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2016-12-05

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • NSF发布“计算神经科学协作研究”项目指南

    2017年11月,美国国家科学基金会(NSF)发布“计算神经科学协作研究(CRCNS)”项目指南,支持如下两类研究——跨科学学科的创新合作研究,以及数据、软件与...

    人工智能快报
  • 美NSF发布“计算神经科学协作研究”项目指南

    美国国家科学基金会(NSF)发布“计算神经科学协作研究(CRCNS)”项目指南,支持如下两类研究——跨科学学科的创新合作研究,以及数据、软件与其他资源共享研究。...

    人工智能快报
  • 人工智能学会“听音辨声”

    美国麻省理工学院的科研人员开发出一套人工智能系统,能够分辨出音乐中不同乐器发出的声音,并单独调音。

    人工智能快报
  • 【科技】混淆你的耳朵 人工智能正尝试模仿人类的声音

    美国知名杂志《连线》报道称:“人工智能造成的最大损失就是,你将对你所看到或听到的任何事物都完全丧失信任。”这可能是我在主流文章中读过的最深奥的句子之一。 ? 几...

    AiTechYun
  • 聊聊sentinel的SentinelGatewayFilter

    Sentinel-1.6.2/sentinel-adapter/sentinel-spring-cloud-gateway-adapter/src/main/j...

    codecraft
  • 聊聊sentinel的SentinelGatewayFilter

    Sentinel-1.6.2/sentinel-adapter/sentinel-spring-cloud-gateway-adapter/src/main/j...

    codecraft
  • 大数据24小时 | 云服务五巨头联手成立“AI联盟”,腾讯青睐的人工智能公司Skymind再获融资

    <数据猿导读> 腾讯投过的美国人工智能公司Skymind再获300万美元融资;贝瑞和康与阿里云合作升级,建成全球最大妇科肿瘤基因组数据库;信息解决方案供应商“盛...

    数据猿
  • 学界 | MIT提出像素级声源定位系统PixelPlayer:无监督地分离视频中的目标声源

    选自arxiv 作者:Hang Zhao、Chuang Gan、Andrew Rouditchenko、Carl Vondrick Josh McDermott...

    机器之心
  • 写给大家看的机器学习书(第二篇)

    作者:徐晗曦 来源:https://zhuanlan.zhihu.com/p/25439997 在《写给大家看的机器学习书》的第一篇,我们了解了机器学习的基本...

    小莹莹
  • Linux系统管理工具-vmstat、top、sar、nload、w命令

    解析: 第一行从左边开始显示的信息依次是:时间,系统运行时间,登录用户数,平均负载(1min平均负载、5min平均负载、15min平均负载)。 load av...

    阿dai学长

扫码关注云+社区

领取腾讯云代金券