前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >每日学术速递2.25

每日学术速递2.25

作者头像
AiCharm
发布2024-02-26 14:15:17
1490
发布2024-02-26 14:15:17
举报
文章被收录于专栏:AiCharm

CV - 计算机视觉 | ML - 机器学习 | RL - 强化学习 | NLP 自然语言处理

点击下方卡片,关注「AiCharm」公众号

Subjects: cs.CV

1.Snap Video: Scaled Spatiotemporal Transformers for Text-to-Video Synthesis

标题:Snap Video:用于文本到视频合成的缩放时空转换器

作者:Willi Menapace, Aliaksandr Siarohin, Ivan Skorokhodov, Ekaterina Deyneka, Tsai-Shien Chen

文章链接:https://arxiv.org/abs/2402.14797

项目代码:https://snap-research.github.io/snapvideo/

摘要:

用于生成图像的当代模型显示出卓越的质量和多功能性。受这些优势的影响,研究界将它们重新用于生成视频。由于视频内容高度冗余,我们认为天真地将图像模型的进步引入视频生成领域会降低运动保真度、视觉质量并损害可扩展性。在这项工作中,我们构建了 Snap Video,这是一种视频优先的模型,可以系统地解决这些挑战。为此,我们首先扩展 EDM 框架以考虑空间和时间冗余像素并自然支持视频生成。其次,我们表明 U-Net(图像生成背后的主力)在生成视频时扩展性很差,需要大量的计算开销。因此,我们提出了一种新的基于 Transformer 的架构,其训练速度比 U-Net 快 3.31 倍(推理速度快约 4.5 倍)。这使我们能够首次有效地训练具有数十亿个参数的文本到视频模型,在许多基准上达到最先进的结果,并生成具有更高质量、时间一致性和运动的视频复杂。用户研究表明,我们的模型比最新的方法更受青睐。

2.A Touch, Vision, and Language Dataset for Multimodal Alignment

标题:用于多模式对齐的触摸、视觉和语言数据集

作者:Letian Fu, Gaurav Datta, Huang Huang, William Chung-Ho Panitch, Jaimyn Drake

文章链接:https://arxiv.org/abs/2402.13232

项目代码:https://tactile-vlm.github.io/

摘要:

触摸是人类重要的感知方式,但尚未被纳入多模态生成语言模型中。这部分是由于获得触觉数据的自然语言标签的困难以及将触觉读数与视觉观察和语言描述对齐的复杂性。作为弥补这一差距的一步,这项工作引入了一个包含 44K 个野外视觉-触摸对的新数据集,其中包含由人类注释的英语标签 (10%) 和来自 GPT-4V 的文本伪标签 (90%) 。我们使用该数据集来训练视觉语言对齐的触觉编码器以进行开放词汇分类,并训练触摸视觉语言(TVL)模型以使用经过训练的编码器生成文本。结果表明,通过结合触摸,TVL 模型比在任何一对模态上训练的现有模型提高了(+29% 分类准确率)触摸-视觉-语言对齐。尽管数据集只有一小部分是人工标记的,但 TVL 模型在新的触摸视觉上表现出比 GPT-4V (+12%) 和开源视觉语言模型 (+32%) 更好的视觉触觉理解了解基准。

3.On the Semantic Latent Space of Diffusion-Based Text-to-Speech Models

标题:基于扩散的文本转语音模型的语义潜在空间

作者:Miri Varshavsky Hassid, Roy Hirsch, Regev Cohen, Tomer Golany, Daniel Freedman, Ehud Rivlin

文章链接:https://arxiv.org/abs/2402.12423

项目代码:https://latent-analysis-grad-tts.github.io/speech-samples/

摘要:

去噪扩散模型 (DDM) 在文本转语音 (TTS) 领域的应用不断增加,为合成高质量语音提供了巨大的价值。尽管它们表现出令人印象深刻的音频质量,但它们的语义能力程度尚不清楚,并且控制其合成语音的声音特性仍然是一个挑战。受图像合成最新进展的启发,我们探索了冻结 TTS 模型的潜在空间,该空间由 DDM 降噪器的潜在瓶颈激活组成。我们发现这个空间包含丰富的语义信息,并概述了几种在其中寻找语义方向的新方法,包括有监督和无监督的方法。然后,我们演示这些如何实现现成的音频编辑,而无需任何进一步的培训、架构更改或数据要求。我们提供编辑音频的语义和声学质量的证据,并提供补充示例:此 https URL。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-02-25,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AiCharm 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
NLP 服务
NLP 服务(Natural Language Process,NLP)深度整合了腾讯内部的 NLP 技术,提供多项智能文本处理和文本生成能力,包括词法分析、相似词召回、词相似度、句子相似度、文本润色、句子纠错、文本补全、句子生成等。满足各行业的文本智能需求。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档