从图像和音频生成视频_iOS-FFmpeg-从音频和图像文件合成视频_从YouTube分离音频层和视频层 - 腾讯云开发者社区 - 腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

谷歌10秒视频生成模型破世界记录！LLM终结扩散模型，效果碾压顶流Gen-2

回看过去几个月，RunWay的Gen-2、Pika Lab的Pika 1.0，国内大厂等大波视频生成模型纷纷涌现，不断迭代升级。

01

阿里5.2kStar给Sora配音的EMO音视频项目开源了

阿里EMO项目开源了，但是是PPT！！！但在其项目页面仍然是一个不错的表现。

01

您找到你想要的搜索结果了吗？

是的

没有找到

ICCV 2023 视频AIGC（编辑/生成/转换）论文 7 篇

基于大规模图像库训练的图像扩散模型已成为质量和多样性方面最为通用的图像生成模型。它们支持反转真实图像和条件生成（例如，文本生成），使其在高质量图像编辑应用中具有吸引力。本文研究如何利用这些预训练的图像模型进行文本引导的视频编辑。

01

视频生成可以无限长？谷歌VideoPoet大模型上线，网友：革命性技术

本周二，谷歌提出的视频生成大模型上线，立刻获得了人们的关注。这款名为 VideoPoet 的大语言模型，被人们认为是革命性的 zero-shot 视频生成工具。

01

谷歌VideoPoet负责人蒋路跳槽TikTok！对标Sora，AI视频模型大战在即

谷歌VideoPoet项目Research Lead，CMU兼职教授蒋路的Google Scholar资料显示已加入TikTok。

00

学界 | 有趣的研究奥巴马Net：从文本合成真实的唇语口型

选自arXiv 机器之心编译参与：路雪、李亚洲结合语音合成模型、视频生成模型等，本论文研究了如何使用原始文本生成人读随机文本的虚拟视频，且口型完全对照，更加自然逼真。目前存在大量关于使用机器学习方法生成图像的研究（Isola et al.，2016）。同样，语音合成方面也有显著进展（Sotelo et al.，2017）。不过，将两种模式同时建模的研究并不多。本论文展示了结合多个近期开发的模型生成人读随机文本的虚拟视频。我们的模型可在人说话的任意近景（close shot）视频集合（带对应的转录文本

基于扩散模型的音频驱动说话人生成，云从&上交数字人研究入选ICASSP 2023

近日，国际语音及信号处理领域顶级会议 ICASSP2023 在希腊成功举办。大会邀请了全球范围内各大研究机构、专家学者以及等谷歌、苹果华为、Meta AI、等知名企业近 4000 人共襄盛会，探讨技术、产业发展趋势，交流最新成果。

05

谷歌发布视频生成模型 VideoPoet，AI 连剪辑师的工作也承包了

过去一年，从画图、写诗、代码到语音等生成式内容迎来爆炸性增长，在这当中，被视为 AIGC 高地之一的视频生成（Text-to-Video）受数据、算力多方影响，技术门槛更高，需要克服视频画面质量、画面连续性、文本和视频内容等诸多挑战。

01

AI短视频制作一本通：文本生成视频、图片生成视频、视频生成视频

随着人工智能（AI）技术的飞速发展，视频制作领域也迎来了创新的浪潮。文本生成视频是其中的一项令人激动的进展，它利用自然语言处理技术将文本内容转化为视频。这项技术在广告、教育、娱乐等领域有着广泛的应用，可以快速生成吸引人的视频内容。

06

可组合扩散模型主打Any-to-Any生成：文本、图像、视频、音频全都行

机器之心报道编辑：陈萍、杜伟一种模型统一多种模态实现了。给定一句话，然后让你想象这句话在现实场景中的样子，对于人类来说这项任务过于简单，比如「一辆进站的火车」，人类可以进行天马行空的想象火车进站时的样子，但对模型来说，这可不是一件容易的事，涉及模态的转换，模型需要理解这句话的含义，然后根据这句话生成应景的视频、音频，难度还是相当大的。现在，来自北卡罗来纳大学教堂山分校、微软的研究者提出的可组合扩散（Composable Diffusion，简称 CoDi）模型很好的解决了这个问题。比如，前面提到的

01

统一多种模态 | 扩散模型主打Any-to-Any生成：文本、图像、视频、音频全都行

给定一句话，然后让你想象这句话在现实场景中的样子，对于人类来说这项任务过于简单，比如「一辆进站的火车」，人类可以进行天马行空的想象火车进站时的样子，但对模型来说，这可不是一件容易的事，涉及模态的转换，模型需要理解这句话的含义，然后根据这句话生成应景的视频、音频，难度还是相当大的。

02

新火种AI|围攻光明顶：Sora效应下的AI视频生成竞赛

尽管在去年，Runway、Pika以及Stable Video等就已经涉足AI视频生成领域，并且也曾经带给人们很多惊艳的时刻，甚至让马斯克都直呼，2024会是AI视频生成的元年。就在大家还在期待着这些公司会在2024年带给大家更多惊喜的时候，Sora放出的Demo，60秒、动作流畅，涂抹感不强，凭借一己之力抬高了视频生成领域的标准，对于之前只能生成几秒钟的AI视频来说，简直就是降维打击。

01

人人都是电影「导演」！MSRA联合北大等高校提出：视频、电影、短视频生成模型

自从Stable Diffusion和Midjourney爆火之后，人们见识到了人工智能技术在图片生成领域的强大实力。

03

阿里最新图生视频模型效果好得可比肩 Sora，但 0 代码“假”开源让国内外网友骂翻了天？

近日，阿里巴巴集团智能计算研究院上线了一款 AI 图生视频模型 EMO（Emote Portrait Alive）。据悉，EMO 是一种富有表现力的音频驱动型肖像视频生成框架，用户用户只需要提供一张照片和一段任意音频文件，EMO 即可生成具有丰富面部表情和多种头部姿态的语音头像视频。此外，EMO 还可以根据输入音频的长度生成任意长度的视频。

01

被误解的「中文版Sora」背后，字节跳动有哪些技术？

这几年，视频生成领域的技术迭代持续加速，很多科技公司也公布了相关技术进展和落地成果。在此之前，Pika、Runway 都曾推出过类似产品，但 Sora 放出的 Demo，显然以一己之力抬高了视频生成领域的标准。

01

2.3k Star！腾讯又悄悄地开源了一款音频驱动的真实肖像动画合成框架！

图像和视频处理技术的发展日新月异，每时每刻都在变化，都在进步，也激发了各大研究人员和AI实验室的创造力和可能性。

01

一张图即出AI视频！谷歌全新扩散模型，让人物动起来

近日，来自谷歌的研究人员发布了多模态扩散模型VLOGGER，让我们朝着虚拟数字人又迈进了一步。

01

谷歌AI歌手震撼来袭！AudioLM简单听几秒，便能谱曲写歌

---- 新智元报道编辑：David 桃子【新智元导读】最近，谷歌研究团队推出了一种语音生成的AI模型——AudioLM。只需几秒音频提示，便可生成高质量连贯的语音，甚至还可以生成钢琴音乐。图像生成模型卷起来了！视频生成模型卷起来了！下一个，便是音频生成模型。近日，谷歌研究团队推出了一种语音生成的AI模型——AudioLM。只需几秒音频提示，它不仅可以生成高质量，连贯的语音，还可以生成钢琴音乐。论文地址：https://arxiv.org/pdf/2209.03143.pdf A

03

AI视频又炸了！照片+声音变视频，阿里让Sora女主唱歌小李子说rap

这就是阿里最新推出的基于音频驱动的肖像视频生成框架，EMO（Emote Portrait Alive）。

01

谷歌发布“Vlogger”模型：单张图片生成10秒视频

其中，前者负责将音频波形作为输入，生成人物的身体控制动作，包括眼神、表情和手势、身体整体姿势等等。

01

NeurIPS 2023 | CoDi: 利用可组合扩散实现任意组合模态的处理与生成

图1 CoDi可以处理任意模态组合的输入，从而生成任意模态组合的输出。如视频、图像、音频和文本(由彩色箭头描绘的示例组合)

04

一张照片、一段声音秒生超逼真视频！南大等提出全新框架，口型动作精准还原

生成的讲话动画不但口型和音频能够无缝对齐，面部表情和头部姿势都非常自然而且有表现力。

02

文字、图片一键生成逼真音效，作者亲自揭秘音频AIGC模型

AIGC 在最近几月获得了巨大的突破，用户可以输入自然语言生成图像、视频、甚至是 3D 模型。但对于音频音效合成，高自由度音频生成因文本 - 音频对数据缺乏，以及长时波形建模困难而带来挑战。此前，机器之心发布的文章《这段音频火爆外网！文字、图片一键生成逼真音效，音频界 AIGC 来了》很好的解决了上述问题，研究者提出了一款创新的、文本到音频生成系统，即 Make-An-Audio。其可以将自然语言描述作为输入，而且是任意模态（例如文本、音频、图像、视频等）均可，同时输出符合描述的音频音效。具体而言，研究

02

图片+音频秒变视频！西交大开源SadTalker：头、唇运动超自然，中英双语全能，还会唱歌

---- 新智元报道编辑：LRS 【新智元导读】让图片配合你的音频出演，配套sd-webui插件已发布！随着数字人概念的火爆、生成技术的不断发展，让照片里的人物跟随音频的输入动起来也不再是难题。不过目前「通过人脸图像和一段语音音频来生成会说话的人物头像视频」仍然存在诸多问题，比如头部运动不自然、面部表情扭曲、视频和图片中的人物面部差异过大等问题。最近来自西安交通大学等的研究人员提出了SadTalker模型，在三维运动场中进行学习从音频中生成3DMM的3D运动系数（头部姿势、表情），并使用一

01

视频生成无需GAN、VAE，谷歌用扩散模型联合训练视频、图像，实现新SOTA

机器之心报道编辑：杜伟、陈萍扩散模型正在不断的「攻城略地」。扩散模型并不是一个崭新的概念，早在2015年就已经被提出。其核心应用领域包括音频建模、语音合成、时间序列预测、降噪等。那么它在视频领域表现如何？先前关于视频生成的工作通常采用诸如GAN、VAE、基于流的模型。在视频生成领域，研究的一个重要里程碑是生成时间相干的高保真视频。来自谷歌的研究者通过提出一个视频生成扩散模型来实现这一里程碑，显示出非常有希望的初步结果。本文所提出的模型是标准图像扩散架构的自然扩展，它可以从图像和视频数据中进行联合训

02

视频生成无需GAN、VAE，谷歌用扩散模型联合训练视频、图像，实现新SOTA

来源：机器之心本文约2100字，建议阅读9分钟扩散模型正在不断地「攻城略地」。扩散模型并不是一个崭新的概念，早在2015年就已经被提出。其核心应用领域包括音频建模、语音合成、时间序列预测、降噪等。那么它在视频领域表现如何？先前关于视频生成的工作通常采用诸如GAN、VAE、基于流的模型。在视频生成领域，研究的一个重要里程碑是生成时间相干的高保真视频。来自谷歌的研究者通过提出一个视频生成扩散模型来实现这一里程碑，显示出非常有希望的初步结果。本文所提出的模型是标准图像扩散架构的自然扩展，它可以从图像和视频数

01

CVPR 2023 | 视频AIGC，预测/插帧/生成/编辑

深入浅出stable diffusion：AI作画技术背后的潜在扩散模型论文解读

02

每日学术速递12.9

1.CoDi-2: In-Context, Interleaved, and Interactive Any-to-Any Generation

01

英伟达肖像动画新模型SPACEx发布，三步就让照片里的人「活」过来！

而最近，英伟达团队攻克了这一难题，以巧妙的方式，使用语音和2D单个图像，就可以为人像制作逼真的动画了。

03

AIGC堪比工业革命？数智人创作抓住音视频行业未来！

AI人工智能行业的发展其实是一个经久不衰的话题，而近期AIGC的热门讨论也将人们的目光再次聚焦。AIGC的全称是AI-Generated Content，它属于一种新的内容生成方式，通过利用人工智能技术，自动地生成各种类型的内容，也叫做生成式AI。有文本生成、音频生成、图像生成、视频生成及图像、视频、文本间的跨模态生成等多种类型。图片来源于国海证券研报《人工智能系列深度报告:AIGC行业综述篇 ——开启AI新篇章》当前AIGC在文本、图片和代码领域都有比较成熟的落地，在文本生成上ChatGPT

03

Sora AI Video Showcases：AI助力视频创作，轻松打造视觉盛宴！

摘要：Sora AI Video Showcases是一款基于人工智能的视频生成工具，能够将文本描述转化为生动的视频画面。本文将为您解答Sora AI Video Showcases是否属于人工智能、软件使用是否免费、其独特之处、同类工具推荐以及如何利用它实现盈利。

00

每日学术速递9.23

1.360∘ Reconstruction From a Single Image Using Space Carved Outpainting(SIGGRAPH Asia 2023)

02

碟中谍再现，新研究攻破基于音频的生物识别系统 | 一周AI最火论文

呜啦啦啦啦啦啦啦大家好，连续两周拖更的AIScholar Weekly栏目又和大家见面啦！

06

视频生成领域的发展概述:从多级扩散到LLM

2023年是语言模型(llm)和图像生成技术激增的一年，但是视频生成受到的关注相对较少。今年刚到2月份，OpenAI就发布了一个惊人的视频生成模型Sora。虽然它的架构没有披露，但是通过总结现有的视频生成领域可能能对Sora的构架有所理解。

01

69 篇文章带你系统性的学习音视频开发（收藏起来假期看）

距离我们发出第一篇音视频技术文章已经过去一年了，回顾这一年，我们发了几十篇文章，覆盖了音视频基础知识、工具使用、工程示例、实战经验等主题，这些文章基本上构成了入门音视频开发并做一些功能实现和指标优化工作所需要的知识框架，这里我们来回顾下这些文章，做一下内容简介，给需要的朋友提供一些指引。

03

Stable Video Diffusion来了，代码权重已上线

本周二，基于 Stable Diffusion 的视频生成模型 Stable Video Diffusion 来了，AI 社区马上开始了热议。

02

每日学术速递2.25

CV - 计算机视觉 | ML - 机器学习 | RL - 强化学习 | NLP 自然语言处理

01

【协同语音手势】开源 | 一个新的框架ANGIE，有效地捕获可重用的共同语音手势模式以及精细的节奏运动

论文地址： http://arxiv.org/pdf/2212.02350v1.pdf

02

今日 Paper | Social-STGCNN；说话人脸视频生成；食材图像合成；光场角度超分辨率等

论文名称：Social-STGCNN: A Social Spatio-Temporal Graph Convolutional Neural Network for Human Trajectory Prediction

02

一文看尽SOTA生成式模型：9大类别21个模型全回顾！

---- 新智元报道编辑：LRS 【新智元导读】一次学完所有生成式模型！过去的两年时间里，AI界的大型生成模型发布呈井喷之势，尤其是Stable Diffusion开源和ChatGPT开放接口后，更加激发了业界对生成式模型的热情。但生成式模型种类繁多，发布速度也非常快，稍不留神就有可能错过了sota 最近，来自西班牙科米利亚斯主教大学的研究人员全面回顾了各个领域内AI的最新进展，将生成式模型按照任务模态、领域分为了九大类，并总结了2022年发布的21个生成式模型，一次看明白生成式模型的发展

03

16句描述，生成11分钟动画！「女娲」系列新成员：超长视频生成模型NUWA-XL

---- 新智元报道来源：微软亚洲研究院【新智元导读】近期，微软亚洲研究院 NUWA 多模态生成模型家族迎来了新成员——NUWA-XL，其以创新的 Diffusion over Diffusion 架构，首次实现了高质量超长视频的并行生成，为多模态大模型提供了新的解题思路。输入16句简单描述就能生成一段长达11分钟的动画片？没错！微软亚洲研究院提出的超长视频生成模型 NUWA-XL 可以根据文字自动生成高质量动画作品。让我们先来看一看这段由 NUWA-XL 生成的动画片吧！早在多年前，

02

一文看尽SOTA生成式模型：9大类别21个模型全回顾！

来源：新智元极市平台本文约3800字，建议阅读5分钟本文总结了2022年发布的21个生成式模型，一次看明白生成式模型的发展脉络！过去的两年时间里，AI界的大型生成模型发布呈井喷之势，尤其是Stable Diffusion开源和ChatGPT开放接口后，更加激发了业界对生成式模型的热情。但生成式模型种类繁多，发布速度也非常快，稍不留神就有可能错过了sota。最近，来自西班牙科米利亚斯主教大学的研究人员全面回顾了各个领域内AI的最新进展，将生成式模型按照任务模态、领域分为了九大类，并总结了2022年发

03

ICCV 2021 | FACIAL：具有隐式属性学习的动态谈话人脸视频生成

本文是对发表于计算机视觉领域的顶级会议 ICCV 2021的论文“FACIAL: Synthesizing Dynamic Talking Face with Implicit Attribute Learning（具有隐式属性学习的动态谈话人脸视频生成）”的解读。

02

谷歌发布新大语言模型：零样本生成10秒视频达SOTA！网友：压力给到Runway/Pika

它不仅没有用视频领域常用的扩散模型，还零样本实现了SOTA。相较于此前一些模型，画面更加稳定、动作更加逼真，清晰度也直线up。

01

AIGC扫盲和应用场景探究

AIGC（Artificial Intelligence Generated Content）是指利用人工智能技术生成内容的能力。火爆的虚拟数字人，就是AIGC的典型代表，它可以通过学习大量数据和知识，生成与人类创作相似甚至超越人类水平的文本、图像、音频、视频等内容。AIGC是人工智能领域发展的新里程碑，能够加速内容生产，提高创作效率，降低创作成本，为人类提供更加便捷、高效、准确的内容生成服务。

06

VidTrans 21：时间和同步

在时间感知的媒体处理链中，在视频内容的获取、处理、生产和消费等过程中，时间与同步是非常重要的。如下图所示，按照视频生产和传输的工作流程来说，其中的各个步骤都需要对时间信息进行记录或者处理。

05

ControlVideo: 可控的Training-free的文本生成视频

题目：ControlVideo: Training-free Controllable Text-to-Video Generation

05

剑桥、腾讯AI Lab等提出大语言模型PandaGPT：一个模型统一六种模态

来自剑桥、NAIST 和腾讯 AI Lab 的研究者近期发布了一项名为 PandaGPT 的研究成果，这是一种将大型语言模型与不同模态对齐、绑定以实现跨模态指令跟随能力的技术。PandaGPT 可以完成诸如生成详细的图像描述、根据视频编写故事以及回答关于音频的问题等复杂任务。它可以同时接收多模态输入，并自然地组合它们的语义。

01

Sora 面世，视频生成的 GPT-3 时刻来了

2月16日凌晨，正值中国春节法定节假日期间，OpenAI 毫无预兆地发布了 AI 视频生成大模型 Sora。看过视频效果后，网友纷纷感叹「现实，不存在了。」

01

国内外最值得关注的AIGC机构丨量子位智库报告（附下载）

量子位智库发自凹非寺量子位 | 公众号 QbitAI 2022年，效果惊人的Disco Diffusion、Midjourney、DALL·E2和Imagen AI，让大众切身体会到了AI在图像生成上的惊人表现。而这只是AIGC（AI内容生成）的一个缩影。除了图像，如今的AI在文本、音乐、视频、甚至策略生成上都有了显著的突破，相关成果不断出现。量子位智库在此基础之上梳理了AIGC相关技术场景及成熟度分类：我们认为，随着标注数据累积、技术架构完善、内容行业对丰富度/事实性/个性化的要求越来越高

02

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭