12月20日XiaoHu.AI 日报更新
VideoPoet:Google的多模态视频创作奇迹
HyFluid:解读并预测流体运动的先进技术
️ Runway:文字转语音功能新发布
微软与 Suno 合作:将 AI 音乐创作融入 Copilot
Amphion:全面的开源音频生成工具包
️ MIST:保护艺术作品免受AI模仿的反AI工具
部署Gemini机器人:简易指南
VideoPoet:Google的多模态视频创作奇迹
VideoPoet 是Google最新开发的一款视频模型,它能够根据文字描述生成视频。这款产品不仅仅局限于视频生成,还包括风格化处理、视频修复、扩展,甚至能从视频中生成音频,提供一站式的视频制作服务。
主要特点
• 广泛的视频生成任务:VideoPoet 拥有广泛的视频生成能力,包括文本到视频、图像到视频、视频风格化、视频修复和扩展,以及视频到音频转换。
• 多模态学习能力:与基于扩散模型的视频生成不同,VideoPoet 作为一个大型语言模型,能够处理和融合多种模态信息,如语言、代码和音频。
• 集成多功能:VideoPoet 将多种视频生成功能集成于一个大型语言模型中,不需依赖单独训练的组件。
• 灵活的任务设计:根据不同的任务需求调整生成过程,每种任务类型都由特定的任务标记引导。
• 长视频生成能力:能够通过连续预测生成更长的视频,确保内容的连贯性和一致性。
• 交互式视频编辑:用户可以交互式地编辑视频,如改变视频中对象的动作或行为。
• 图像到视频的控制:根据文本提示,将输入图像动画化,编辑其内容。
• 相机运动控制:能够在生成的视频中实现特定的相机运动,如缩放、平移、弧形拍摄等。
工作原理
• 基于大语言模型(LLM),结合多模态学习和自回归模型。
• 使用特殊的编码器和解码器处理视频和音频,转换成模型能理解的格式。
更多信息
• 详细介绍:https://blog.research.google/2023/12/videopoet-large-language-model-for-zero.html
• 演示:https://sites.research.google/videopoet/
HyFluid:解读并预测流体运动的先进技术
HyFluid 是一个创新项目,专门用于分析和预测视频中流体的运动状态。它能够处理复杂、混乱的流体动态,即使是人眼难以捉摸的细节,也能通过先进计算方法准确捕捉。
主要特点和功能
• 流体动态重建:从多视角视频中推断出流体的密度和速度,如烟雾或雾,提供速度和密集度信息。
• 重建3D流体场景:专长于处理如烟雾或雾这样的难以压缩流体,创建三维空间模型,加深对其行为的理解。
• 重新制作和改变流体动态:允许从不同角度重新观察流体动态,甚至可以改变其动态,适用于电影特效和科学实验。
• 预测流体将来状态:不仅展示当前流体动态,还能预测未来流动趋势,有助于科学预测和动态模拟场景创造。
• 物理基础的损失函数:使用基于物理的损失函数推断出物理上可行的速度场,解决视觉模糊问题。
• 混合神经速度表示:结合基础神经速度场和基于涡旋粒子的速度,处理流体速度的湍流特性。
• 恢复涡流流动细节:重建涡流流动细节,为多种学习和重建应用开辟新可能性。
更多信息:
• 项目及演示:https://kovenyu.com/hyfluid/
• 论文:https://arxiv.org/pdf/2312.06561.pdf
• GitHub:https://github.com/y-zheng18/HyFluid
️ Runway:文字转语音功能新发布
Runway最新推出的文字转语音功能,为视频创作领域带来了新的革命。这项功能能够将文字转换为画外音和对话,支持多种语言,并提供细腻真实的人声效果。
核心特点:
1.真实人声效果:Runway 的文字转语音技术能模拟出非常真实的人声,为视频提供高质量的音频体验。
2.多语言支持:适用于多种语言,满足不同语种视频制作的需求。
3.视频内容增强:适用于给生成的视频添加画外音和对话,增加视频的表达力和吸引力。
微软与 Suno 合作:将 AI 音乐创作融入 Copilot
微软近期宣布与 Suno 合作,把 Suno 的人工智能音乐创作能力整合到 Copilot 中。这一合作将使用户能够从简单的文字提示中生成完整的歌曲,包括歌词、乐器伴奏和歌声。
如何体验:
2.启用 Suno 插件:在Copilot中启用 Suno 插件或点击显示“使用 Suno 制作音乐”的标志。
3.发送创作提示:例如,发送“为我创作一首关于与家人冒险的流行歌曲”作为创作提示。
4.等待完成:稍候片刻,你的个性化歌曲就会生成。
•创意表达:用户可以根据自己的想法和情感创作个性化的音乐。
•音乐创作辅助:对于音乐创作者来说,Suno 提供了一个有趣的工具来启发和辅助创作过程。
更多信息:
更多 Suno 请访问:12月5号第5条资讯
Amphion:Amphion:全面的开源音频生成工具包
Amphion是一个功能强大的开源工具包,专注于音频生成,涵盖语音、声音和歌唱等多种功能。它的应用广泛,从文字转语音到歌声合成,甚至可以将一首歌的演唱者的声音转换为另一位歌手的声音。
主要功能:
1.文本到语音:将文本转化为口语化的语音。应用:语音助手、自动语音回复系统、为视障人士阅读文本等。
2.歌声合成:从文本或旋律生成虚拟歌手的声音。应用:音乐制作、虚拟偶像创作等。
3.声音转换:改变一个人的声音,使其听起来像另一个人。应用:娱乐、声音设计、匿名通信等。
4.歌声转换:将一首歌的演唱者的声音转换为另一个演唱者的声音。应用:音乐制作、个性化音乐体验等。
5.文本到音频:将文本转换为语音、音效或音乐片段。应用:创造音效、音乐片段、音频故事等。
6.文本到音乐:从文本描述生成音乐。应用:自动音乐创作、根据情感或故事情节创作音乐等。
歌声转化已经支持的歌手
技术支持:
•模型支持:支持多种模型和架构,如 FastSpeech2、VITS、Vall-E、NaturalSpeech2 等。
•声码器支持:包括基于 GAN 的声码器(如 MelGAN、HiFi-GAN)、基于流的声码器(如 WaveGlow)、基于扩散的声码器(如 Diffwave)等。
•数据集支持:统一了开源数据集的数据预处理,支持多种数据集,如 AudioCaps、LibriTTS、LJSpeech 等。
更多信息:
• GitHub:https://github.com/open-mmlab/Amphion
• 论文:https://arxiv.org/abs/2312.09911
• HuggingFace演示:https://huggingface.co/amphion
️ MIST:保护艺术作品免受AI模仿的反AI工具
MIST是一款旨在帮助艺术家保护其作品免受AI模仿的反AI工具。它通过在艺术作品上添加一种几乎肉眼看不见的特殊水印来阻止AI程序正确“理解”和复制这些作品。
主要特点:
1.隐蔽性强的水印:这种水印几乎看不见,不影响艺术作品的视觉效果。
2.阻止AI复制:当AI尝试学习或复制加了MIST水印的图片时,会受到干扰,无法正确复制原作的风格和内容。
3.应对多种AI-for-Art应用:有效抵御包括LoRA、SDEdit、DreamBooth、Scenario gg等在内的多种AI-for-Art应用。
4.强大的保护能力:即使作品经过数字处理或变化,MIST依然能有效保护。
5.开源和社区驱动:项目在GitHub开源,开发者希望建立活跃的开发者和用户社区,不断提升MIST的性能。
•效果示例:网站提供了艺术家作品在MIST保护下的效果示例,展示如何有效抵御AI模仿。
•系统兼容性:MIST兼容Linux和Windows操作系统。
•下载和安装:用户可以通过提供的链接下载MIST启动器并安装运行。
•官方网站:https://mist-project.github.io/index.html
•GitHub仓库:https://github.com/mist-project/mist-v2
3分钟部署Gemini机器人:简易指南
部署了一个 Gemini 机器人:http://Gemini.XiaoHu.AI。英文还行,中文回答会错乱,一会一个说法...
部署很简单,教你们3分钟部署一个
第一步:
• 打开这个开源程序:https://github.com/babaohuang/GeminiProChat
• 找到里面有个使用 Vercel 一键部署
第二步:
• 去申请一个Gemini 的API key就行,到时间填进去即可。
• Gemini key申请:https://makersuite.google.com/app/apikey
第三步:最后部署好以后可以绑定自己的域名。完工!
不会使用Vercel的可以问GPT...
历史项目记录:xiaohu.ai
感 阅
谢 读
领取专属 10元无门槛券
私享最新 技术干货