文章/答案/技术大牛

发布

3分钟搭建Gemini机器人、谷歌发布全新AI视频模型、歌声转换AI工具包、能预测流体运动的技术…

文章来源：企鹅号 - 互联网的那点事

12月20日XiaoHu.AI 日报更新

VideoPoet：Google的多模态视频创作奇迹

HyFluid：解读并预测流体运动的先进技术

️ Runway：文字转语音功能新发布

微软与 Suno 合作：将 AI 音乐创作融入 Copilot

Amphion：全面的开源音频生成工具包

️ MIST：保护艺术作品免受AI模仿的反AI工具

部署Gemini机器人：简易指南

VideoPoet：Google的多模态视频创作奇迹

VideoPoet 是Google最新开发的一款视频模型，它能够根据文字描述生成视频。这款产品不仅仅局限于视频生成，还包括风格化处理、视频修复、扩展，甚至能从视频中生成音频，提供一站式的视频制作服务。

主要特点

• 广泛的视频生成任务：VideoPoet 拥有广泛的视频生成能力，包括文本到视频、图像到视频、视频风格化、视频修复和扩展，以及视频到音频转换。

• 多模态学习能力：与基于扩散模型的视频生成不同，VideoPoet 作为一个大型语言模型，能够处理和融合多种模态信息，如语言、代码和音频。

• 集成多功能：VideoPoet 将多种视频生成功能集成于一个大型语言模型中，不需依赖单独训练的组件。

• 灵活的任务设计：根据不同的任务需求调整生成过程，每种任务类型都由特定的任务标记引导。

• 长视频生成能力：能够通过连续预测生成更长的视频，确保内容的连贯性和一致性。

• 交互式视频编辑：用户可以交互式地编辑视频，如改变视频中对象的动作或行为。

• 图像到视频的控制：根据文本提示，将输入图像动画化，编辑其内容。

• 相机运动控制：能够在生成的视频中实现特定的相机运动，如缩放、平移、弧形拍摄等。

工作原理

• 基于大语言模型（LLM），结合多模态学习和自回归模型。

• 使用特殊的编码器和解码器处理视频和音频，转换成模型能理解的格式。

更多信息

• 详细介绍：https://blog.research.google/2023/12/videopoet-large-language-model-for-zero.html

• 演示：https://sites.research.google/videopoet/

HyFluid：解读并预测流体运动的先进技术

HyFluid 是一个创新项目，专门用于分析和预测视频中流体的运动状态。它能够处理复杂、混乱的流体动态，即使是人眼难以捉摸的细节，也能通过先进计算方法准确捕捉。

主要特点和功能

• 流体动态重建：从多视角视频中推断出流体的密度和速度，如烟雾或雾，提供速度和密集度信息。

• 重建3D流体场景：专长于处理如烟雾或雾这样的难以压缩流体，创建三维空间模型，加深对其行为的理解。

• 重新制作和改变流体动态：允许从不同角度重新观察流体动态，甚至可以改变其动态，适用于电影特效和科学实验。

• 预测流体将来状态：不仅展示当前流体动态，还能预测未来流动趋势，有助于科学预测和动态模拟场景创造。

• 物理基础的损失函数：使用基于物理的损失函数推断出物理上可行的速度场，解决视觉模糊问题。

• 混合神经速度表示：结合基础神经速度场和基于涡旋粒子的速度，处理流体速度的湍流特性。

• 恢复涡流流动细节：重建涡流流动细节，为多种学习和重建应用开辟新可能性。

更多信息：

• 项目及演示：https://kovenyu.com/hyfluid/

• 论文：https://arxiv.org/pdf/2312.06561.pdf

• GitHub：https://github.com/y-zheng18/HyFluid

️ Runway：文字转语音功能新发布

Runway最新推出的文字转语音功能，为视频创作领域带来了新的革命。这项功能能够将文字转换为画外音和对话，支持多种语言，并提供细腻真实的人声效果。

核心特点：

1.真实人声效果：Runway 的文字转语音技术能模拟出非常真实的人声，为视频提供高质量的音频体验。

2.多语言支持：适用于多种语言，满足不同语种视频制作的需求。

3.视频内容增强：适用于给生成的视频添加画外音和对话，增加视频的表达力和吸引力。

微软与 Suno 合作：将 AI 音乐创作融入 Copilot

微软近期宣布与 Suno 合作，把 Suno 的人工智能音乐创作能力整合到 Copilot 中。这一合作将使用户能够从简单的文字提示中生成完整的歌曲，包括歌词、乐器伴奏和歌声。

如何体验：

2.启用 Suno 插件：在Copilot中启用 Suno 插件或点击显示“使用 Suno 制作音乐”的标志。

3.发送创作提示：例如，发送“为我创作一首关于与家人冒险的流行歌曲”作为创作提示。

4.等待完成：稍候片刻，你的个性化歌曲就会生成。

•创意表达：用户可以根据自己的想法和情感创作个性化的音乐。

•音乐创作辅助：对于音乐创作者来说，Suno 提供了一个有趣的工具来启发和辅助创作过程。

更多信息：

更多 Suno 请访问：12月5号第5条资讯

Amphion：Amphion：全面的开源音频生成工具包

Amphion是一个功能强大的开源工具包，专注于音频生成，涵盖语音、声音和歌唱等多种功能。它的应用广泛，从文字转语音到歌声合成，甚至可以将一首歌的演唱者的声音转换为另一位歌手的声音。

主要功能：

1.文本到语音：将文本转化为口语化的语音。应用：语音助手、自动语音回复系统、为视障人士阅读文本等。

2.歌声合成：从文本或旋律生成虚拟歌手的声音。应用：音乐制作、虚拟偶像创作等。

3.声音转换：改变一个人的声音，使其听起来像另一个人。应用：娱乐、声音设计、匿名通信等。

4.歌声转换：将一首歌的演唱者的声音转换为另一个演唱者的声音。应用：音乐制作、个性化音乐体验等。

5.文本到音频：将文本转换为语音、音效或音乐片段。应用：创造音效、音乐片段、音频故事等。

6.文本到音乐：从文本描述生成音乐。应用：自动音乐创作、根据情感或故事情节创作音乐等。

歌声转化已经支持的歌手

技术支持：

•模型支持：支持多种模型和架构，如 FastSpeech2、VITS、Vall-E、NaturalSpeech2 等。

•声码器支持：包括基于 GAN 的声码器（如 MelGAN、HiFi-GAN）、基于流的声码器（如 WaveGlow）、基于扩散的声码器（如 Diffwave）等。

•数据集支持：统一了开源数据集的数据预处理，支持多种数据集，如 AudioCaps、LibriTTS、LJSpeech 等。

更多信息：

• GitHub：https://github.com/open-mmlab/Amphion

• 论文：https://arxiv.org/abs/2312.09911

• HuggingFace演示：https://huggingface.co/amphion

️ MIST：保护艺术作品免受AI模仿的反AI工具

MIST是一款旨在帮助艺术家保护其作品免受AI模仿的反AI工具。它通过在艺术作品上添加一种几乎肉眼看不见的特殊水印来阻止AI程序正确“理解”和复制这些作品。

主要特点：

1.隐蔽性强的水印：这种水印几乎看不见，不影响艺术作品的视觉效果。

2.阻止AI复制：当AI尝试学习或复制加了MIST水印的图片时，会受到干扰，无法正确复制原作的风格和内容。

3.应对多种AI-for-Art应用：有效抵御包括LoRA、SDEdit、DreamBooth、Scenario gg等在内的多种AI-for-Art应用。

4.强大的保护能力：即使作品经过数字处理或变化，MIST依然能有效保护。

5.开源和社区驱动：项目在GitHub开源，开发者希望建立活跃的开发者和用户社区，不断提升MIST的性能。

•效果示例：网站提供了艺术家作品在MIST保护下的效果示例，展示如何有效抵御AI模仿。

•系统兼容性：MIST兼容Linux和Windows操作系统。

•下载和安装：用户可以通过提供的链接下载MIST启动器并安装运行。

•官方网站：https://mist-project.github.io/index.html

•GitHub仓库：https://github.com/mist-project/mist-v2

3分钟部署Gemini机器人：简易指南

部署了一个 Gemini 机器人：http://Gemini.XiaoHu.AI。英文还行，中文回答会错乱，一会一个说法...

部署很简单，教你们3分钟部署一个

第一步：

• 打开这个开源程序：https://github.com/babaohuang/GeminiProChat

• 找到里面有个使用 Vercel 一键部署

第二步：

• 去申请一个Gemini 的API key就行，到时间填进去即可。

• Gemini key申请：https://makersuite.google.com/app/apikey

第三步：最后部署好以后可以绑定自己的域名。完工！

不会使用Vercel的可以问GPT...

历史项目记录：xiaohu.ai

感阅

谢读

发表于: 2023-12-202023-12-20 22:50:28
原文链接：https://page.om.qq.com/page/OjfZfdWD1mguKexSEWcTPMwg0
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

3分钟搭建Gemini机器人、谷歌发布全新AI视频模型、歌声转换AI工具包、能预测流体运动的技术…

相关快讯

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐