专栏首页arxiv.org翻译专栏Foley音乐:学习从视频生成音乐
原创

Foley音乐:学习从视频生成音乐

中文标题:Foley音乐:学习从视频生成音乐

中文摘要:本文介绍了Foley Music系统,该系统可以为人们演奏乐器的无声视频片段合成合理的音乐。我们首先为视频到音乐生成器确定两个关键的中间表示形式:视频中的身体关键点和音频记录中的MIDI事件。然后,我们将视频中的音乐生成公式化为运动到MIDI的转换问题。我们提供了一个Graph $-$ Transformer框架,该框架可以根据人体运动准确地预测MIDI事件序列。然后可以使用现成的音乐合成器工具将MIDI事件转换为逼真的音乐。我们在包含各种音乐表演的视频上证明了我们模型的有效性。实验结果表明,我们的模型在生成好听的音乐方面优于现有的几个系统。更重要的是,MIDI表示法具有完全的可解释性和透明性,使我们能够灵活地进行音乐编辑。我们鼓励读者观看打开音频的演示视频来体验结果。

英文标题:Foley Music: Learning to Generate Music from Videos

英文摘要:In this paper, we introduce Foley Music, a system that can synthesize plausible music for a silent video clip about people playing musical instruments. We first identify two key intermediate representations for a successful video to music generator: body keypoints from videos and MIDI events from audio recordings. We then formulate music generation from videos as a motion-to-MIDI translation problem. We present a Graph$-$Transformer framework that can accurately predict MIDI event sequences in accordance with the body movements. The MIDI event can then be converted to realistic music using an off-the-shelf music synthesizer tool. We demonstrate the effectiveness of our models on videos containing a variety of music performances. Experimental results show that our model outperforms several existing systems in generating music that is pleasant to listen to. More importantly, the MIDI representations are fully interpretable and transparent, thus enabling us to perform music editing flexibly. We encourage the readers to watch the demo video with audio turned on to experience the results.

原文作者:Chuang Gan, Deng Huang, Peihao Chen, Joshua B. Tenenbaum, Antonio Torralba

原文地址:https://arxiv.org/abs/2007.10984

PDF链接:https://arxiv.org/pdf/2007.10984.pdf

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 同时学习基于几何的视觉测程方法的修正和误差模型

    中文摘要:本文提出了这样一种观点,即深度学习方法可以用来补充经典的视觉测程管道,以提高它们的精度,并将不确定性模型与它们的估计相关联。我们表明,固有的偏见视觉测...

    用户7454122
  • 社会计算的数学基础

    中文摘要:社会计算包括人们与计算系统交互的机制:众包系统、排名和推荐系统、在线预测市场、公民科学项目和协作编辑的wiki等等。这些系统都有一个共同的特征,即人类...

    用户7454122
  • 机器人绘画的艺术风格:一种从人类艺术家那里学习笔触的机器学习方法

    中文摘要:自20世纪70年代以来,机器人绘画一直是艺术家和机器人专家们感兴趣的课题。研究人员和跨学科艺术家们利用各种绘画技术和人机协作模型在画布上创建视觉媒介。...

    用户7454122
  • 微服务】155:商品新增业务(完)

    这也很好理解,get请求是将参数拼接到路径后面的,而新增的请求参数是有很多的,如果用get请求,那请求路径就很长一串的了。

    刘小爱
  • iOS开发-KVC从使用到原理详解(1)

    相比往年的iOS招聘,相比之前波涛汹涌,这会已经是相对风平浪静.但是实际上这样的风平浪静只不过是由于无法坚守的iOS 开发者相继退出而已.但是该有的竞争...

    CC老师
  • ORA-27102: out of memory 故障

          最近的UAT数据库迁移,由于是多个DB需要迁移到同一台机器,一部分完成后,启动后续数据库碰到了ORA-27102错误,提示内存超出,查看系统可用内存...

    Leshami
  • 迁移学习人民币面值识别(附源码)-InceptionResNetV2

    谷歌开放了 Inception-ResNet-v2,这是一个在 ILSVRC 图像分类基准上取得顶尖准确率的卷积神经网络。Inception-ResNet-v2...

    机器学习AI算法工程
  • label自定义的惨痛教训

    修改label文字: source.DefaultLabelProperties.Style.Font.Size=9; 修改文字的位置: source.Defa...

    用户1075292
  • Codeforces Round #624 (Div. 3) B - WeirdSort

    You are also given a set of distinct positions p1,p2,…,pmp1,p2,…,pm, where 1≤pi<...

    glm233
  • js分页

    用户1623964

扫码关注云+社区

领取腾讯云代金券