首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

3分钟搭建Gemini机器人、谷歌发布全新AI视频模型、歌声转换AI工具包、能预测流体运动的技术…

12月20日XiaoHu.AI 日报更新

VideoPoet:Google的多模态视频创作奇迹

HyFluid:解读并预测流体运动的先进技术

️ Runway:文字转语音功能新发布

微软与 Suno 合作:将 AI 音乐创作融入 Copilot

Amphion:全面的开源音频生成工具包

️ MIST:保护艺术作品免受AI模仿的反AI工具

部署Gemini机器人:简易指南

VideoPoet:Google的多模态视频创作奇迹

VideoPoet 是Google最新开发的一款视频模型,它能够根据文字描述生成视频。这款产品不仅仅局限于视频生成,还包括风格化处理、视频修复、扩展,甚至能从视频中生成音频,提供一站式的视频制作服务。

主要特点

• 广泛的视频生成任务:VideoPoet 拥有广泛的视频生成能力,包括文本到视频、图像到视频、视频风格化、视频修复和扩展,以及视频到音频转换。

• 多模态学习能力:与基于扩散模型的视频生成不同,VideoPoet 作为一个大型语言模型,能够处理和融合多种模态信息,如语言、代码和音频。

• 集成多功能:VideoPoet 将多种视频生成功能集成于一个大型语言模型中,不需依赖单独训练的组件。

• 灵活的任务设计:根据不同的任务需求调整生成过程,每种任务类型都由特定的任务标记引导。

• 长视频生成能力:能够通过连续预测生成更长的视频,确保内容的连贯性和一致性。

• 交互式视频编辑:用户可以交互式地编辑视频,如改变视频中对象的动作或行为。

• 图像到视频的控制:根据文本提示,将输入图像动画化,编辑其内容。

• 相机运动控制:能够在生成的视频中实现特定的相机运动,如缩放、平移、弧形拍摄等。

工作原理

• 基于大语言模型(LLM),结合多模态学习和自回归模型。

• 使用特殊的编码器和解码器处理视频和音频,转换成模型能理解的格式。

更多信息

• 详细介绍:https://blog.research.google/2023/12/videopoet-large-language-model-for-zero.html

• 演示:https://sites.research.google/videopoet/

HyFluid:解读并预测流体运动的先进技术

HyFluid 是一个创新项目,专门用于分析和预测视频中流体的运动状态。它能够处理复杂、混乱的流体动态,即使是人眼难以捉摸的细节,也能通过先进计算方法准确捕捉。

主要特点和功能

• 流体动态重建:从多视角视频中推断出流体的密度和速度,如烟雾或雾,提供速度和密集度信息。

• 重建3D流体场景:专长于处理如烟雾或雾这样的难以压缩流体,创建三维空间模型,加深对其行为的理解。

• 重新制作和改变流体动态:允许从不同角度重新观察流体动态,甚至可以改变其动态,适用于电影特效和科学实验。

• 预测流体将来状态:不仅展示当前流体动态,还能预测未来流动趋势,有助于科学预测和动态模拟场景创造。

• 物理基础的损失函数:使用基于物理的损失函数推断出物理上可行的速度场,解决视觉模糊问题。

• 混合神经速度表示:结合基础神经速度场和基于涡旋粒子的速度,处理流体速度的湍流特性。

• 恢复涡流流动细节:重建涡流流动细节,为多种学习和重建应用开辟新可能性。

更多信息:

• 项目及演示:https://kovenyu.com/hyfluid/

• 论文:https://arxiv.org/pdf/2312.06561.pdf

• GitHub:https://github.com/y-zheng18/HyFluid

️ Runway:文字转语音功能新发布

Runway最新推出的文字转语音功能,为视频创作领域带来了新的革命。这项功能能够将文字转换为画外音和对话,支持多种语言,并提供细腻真实的人声效果。

核心特点:

1.真实人声效果:Runway 的文字转语音技术能模拟出非常真实的人声,为视频提供高质量的音频体验。

2.多语言支持:适用于多种语言,满足不同语种视频制作的需求。

3.视频内容增强:适用于给生成的视频添加画外音和对话,增加视频的表达力和吸引力。

微软与 Suno 合作:将 AI 音乐创作融入 Copilot

微软近期宣布与 Suno 合作,把 Suno 的人工智能音乐创作能力整合到 Copilot 中。这一合作将使用户能够从简单的文字提示中生成完整的歌曲,包括歌词、乐器伴奏和歌声。

如何体验:

2.启用 Suno 插件:在Copilot中启用 Suno 插件或点击显示“使用 Suno 制作音乐”的标志。

3.发送创作提示:例如,发送“为我创作一首关于与家人冒险的流行歌曲”作为创作提示。

4.等待完成:稍候片刻,你的个性化歌曲就会生成。

创意表达:用户可以根据自己的想法和情感创作个性化的音乐。

音乐创作辅助:对于音乐创作者来说,Suno 提供了一个有趣的工具来启发和辅助创作过程。

更多信息:

更多 Suno 请访问:12月5号第5条资讯

Amphion:Amphion:全面的开源音频生成工具包

Amphion是一个功能强大的开源工具包,专注于音频生成,涵盖语音、声音和歌唱等多种功能。它的应用广泛,从文字转语音到歌声合成,甚至可以将一首歌的演唱者的声音转换为另一位歌手的声音。

主要功能:

1.文本到语音:将文本转化为口语化的语音。应用:语音助手、自动语音回复系统、为视障人士阅读文本等。

2.歌声合成:从文本或旋律生成虚拟歌手的声音。应用:音乐制作、虚拟偶像创作等。

3.声音转换:改变一个人的声音,使其听起来像另一个人。应用:娱乐、声音设计、匿名通信等。

4.歌声转换:将一首歌的演唱者的声音转换为另一个演唱者的声音。应用:音乐制作、个性化音乐体验等。

5.文本到音频:将文本转换为语音、音效或音乐片段。应用:创造音效、音乐片段、音频故事等。

6.文本到音乐:从文本描述生成音乐。应用:自动音乐创作、根据情感或故事情节创作音乐等。

歌声转化已经支持的歌手

技术支持:

模型支持:支持多种模型和架构,如 FastSpeech2、VITS、Vall-E、NaturalSpeech2 等。

声码器支持:包括基于 GAN 的声码器(如 MelGAN、HiFi-GAN)、基于流的声码器(如 WaveGlow)、基于扩散的声码器(如 Diffwave)等。

数据集支持:统一了开源数据集的数据预处理,支持多种数据集,如 AudioCaps、LibriTTS、LJSpeech 等。

更多信息:

• GitHub:https://github.com/open-mmlab/Amphion

• 论文:https://arxiv.org/abs/2312.09911

• HuggingFace演示:https://huggingface.co/amphion

️ MIST:保护艺术作品免受AI模仿的反AI工具

MIST是一款旨在帮助艺术家保护其作品免受AI模仿的反AI工具。它通过在艺术作品上添加一种几乎肉眼看不见的特殊水印来阻止AI程序正确“理解”和复制这些作品。

主要特点:

1.隐蔽性强的水印:这种水印几乎看不见,不影响艺术作品的视觉效果。

2.阻止AI复制:当AI尝试学习或复制加了MIST水印的图片时,会受到干扰,无法正确复制原作的风格和内容。

3.应对多种AI-for-Art应用:有效抵御包括LoRA、SDEdit、DreamBooth、Scenario gg等在内的多种AI-for-Art应用。

4.强大的保护能力:即使作品经过数字处理或变化,MIST依然能有效保护。

5.开源和社区驱动:项目在GitHub开源,开发者希望建立活跃的开发者和用户社区,不断提升MIST的性能。

效果示例:网站提供了艺术家作品在MIST保护下的效果示例,展示如何有效抵御AI模仿。

系统兼容性:MIST兼容Linux和Windows操作系统。

下载和安装:用户可以通过提供的链接下载MIST启动器并安装运行。

官方网站:https://mist-project.github.io/index.html

GitHub仓库:https://github.com/mist-project/mist-v2

3分钟部署Gemini机器人:简易指南

部署了一个 Gemini 机器人:http://Gemini.XiaoHu.AI。英文还行,中文回答会错乱,一会一个说法...

部署很简单,教你们3分钟部署一个

第一步:

• 打开这个开源程序:https://github.com/babaohuang/GeminiProChat

• 找到里面有个使用 Vercel 一键部署

第二步:

• 去申请一个Gemini 的API key就行,到时间填进去即可。

• Gemini key申请:https://makersuite.google.com/app/apikey

第三步:最后部署好以后可以绑定自己的域名。完工!

不会使用Vercel的可以问GPT...

历史项目记录:xiaohu.ai

感  阅

谢  读

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OjfZfdWD1mguKexSEWcTPMwg0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券