🍹 Insight Daily 🪺
Hi,这里是Aitrainee,欢迎阅读本期新文章。
牛逼了,以往聊AI视频是画面多真、角色多稳 or 对物理世界的理解。
今天来了一个可以生成任意长度视频,并且生成中可以随时终止、提交新的prompt。
百度的这个想法确实不错,视频无限生成(AI长视频)感觉会是一个趋势。
Veo3 火,大家都知道它的一大特点就是音视频一体生成,昨天Wan2.5也是支持音视频一体化了,而其他的(即梦、可灵等等)都是割裂的流程,先生成画面再配音频。
不过查了一下,第一个中文音视频一体化视频视频生成模型应该也是百度的:他们在7月份发布了MuseSteamer蒸汽机视频生成模型,可实现画面与音效、人声台词的协同创作。
今天他们也是把这个模型升级了:突破5s和10s的限制,逻辑上可以生成任意长度,同时生成的过程中可以更新prompt进行交互式生成
输入网址 https://huixiang.baidu.com 平台使用。
具体细节如下:
流式长视频生成体验的长视频模型,模型推理出多少,就能看到多少。 图+prompt输入,长视频直接生成,用户可自行调整需要生成的视频长度(10-1min区间) 可灵、即梦暂时没有此能力,目前主要推出的长视频产品主要还是基于首尾帧能力,操作流畅度差。
百度蒸汽机MuseSteamer 生成的19S 丛林探险的氛围镜头,动态感十足,把我们瞬间带入了这个丛林探险的氛围里。
开场是一个非常经典的跟随镜头,人物稳定在画面中心,你可以看到时的随着镜头移动,光影也会发生变化。
最后5秒指令是“环绕到人物正面”。镜头非常流畅地从人物的侧后方划过一道弧线,最终来到了他的侧前方,露出了人物的侧脸和表情。
整个过程非常连贯,人物模型、背包、衣物都没有出现闪烁或变形,带有弧度的环绕运镜,提升了视频的电影质感。
prompt:1—5s镜头跟随,人物快速向前走。6—10s镜头跟随,人物向前走向楼梯。11—15s人物向前走,镜头跟随,右摇16—20s人物向前走,镜头跟随,右摇,环绕到人物正面
前面的AI视频创作更像是5s、10s开次盲盒,比如一个60秒的短片有6次需要卡住,然后在那疯狂roll,并且超过10s的部分得靠首尾帧来拼接,这是没有这种长视频这么连贯的。
现在开盲盒的时间可以缩短到几帧,生成中随时可通过提示词去创作后面的剧情,还能基于现有画面随时修改剧情。。
20s西部牛仔镜头:模型理解了“向前走”,还能理解“镜头右摇”、“推门进去”这种包含动作、运镜、交互的复合指令。每一次“续写”,新的画面能与之前的内容丝滑无缝地衔接;人物的服装、步态,还是环境的光影、尘土,都保持了完美的一致性。
prompt:1—5s镜头跟随,牛仔走向右方马车。6—10s人物向前走,镜头跟随。11—15s人物向前走,镜头跟随,右摇16—20s镜头跟随,牛仔推开门进去。
你可以随时暂停,根据已生成的画面,提出新的想法和指令,引导剧情发展。这就像拥有了一块无限大的画布,灵感迸发时可以随时修改和添加,让创作过程变得更灵活、更可控。
船在水中随着水流的湍急与平缓,产生自然的颠簸、旋转和摇晃。水流撞击在石头上会溅起真实的水花和泡沫,水面上的光影反射也随着水波的荡漾而不断变化。
从头到尾,这只黄色的纸船始终保持着它固有的形态和结构,没有突然多一个角,也没有在水流中“融化”。同样,周围的环境,无论是石头、野花还是远处的树林,都保持着风格和形态一致性。
prompt:小纸船在小河里漂流
让一群相似的主体同时保持稳定,并且各自拥有独立的、合理的动态。视频涉及场景转换:从水中到陆地。
小鸭子在水中游动时,水面泛起的涟漪和它们清晰的倒影,阳光洒在水面上形成的波光粼粼的效果.
随着小鸭子们的行进路线,视频的镜头有一个平滑的摇摄(Pan)运镜。增强了视频的沉浸感和故事性。
当小鸭子们走上岸,阳光照射在它们黄色绒毛上时,你可以清晰地看到绒毛的质感和边缘的光晕。它们的影子也随着身体的移动和地形的变化而产生自然拉伸和变形。
prompt:小鸭子在水中嬉戏,有几只喝水,有几只划水,接下来排着队往前游,游到了岸边,拍打着小翅膀,往前边的草地上走去。
堪比高预算3DCG的质感:二次元少女环绕镜头
MuseSteamer 支持首尾帧,输入:首尾帧、prompt:镜头环绕着人物
人物的发丝动态效果、毛发物理的真实度、光影氛围营造得可以说是非常逼真了。整个感觉就是一个很流畅的感觉。
每一缕头发,从内层的深色到底层的橙色再到外层的银白色,都有独立的动态。它们在“风”的作用下,飘动、散开、再聚合,层次分明,灵动飘逸,没有一丝僵硬或粘连感。
逆光穿过发丝缝隙,形成了美丽的轮廓光和体积光,让整个头部显得通透而富有立体感。发丝的每一次飘动,都伴随着光影的细腻变化。
在AI视频这条赛道上,各家大厂都在加速狂奔
我们来看一下这张“AI视频生成模型技术发展路径图”:
国内第一个实现“音视频一体”的是百度蒸汽机1.0。
8月——蒸汽机2.0多人有声,8月份这个版本主要是多人的。据悉,百度蒸汽机视频生成模型主打“多人对话音视频一体化生成”。用户仅需输入一张参考图和一段文本描述,即可直接生成具备电影级质感、包含多人对话与精准口型同步的视频内容。
prompt:身穿古代盔甲的武士坐在开阔场地的木桌两侧,手持麻将牌进行牌局对战,两人嘴唇微动进行对话。麻将牌整齐排列在桌面的深色棋盘纹布上,背景可见随风飘动的军队旗帜。左边人物说话:"将军,咱们在这打麻将不太好吧?" 右边人物说话:"你是不是输钱输怕了?!"
9月——蒸汽机“流式无限生成”长视频,如图所示,这直接将视频时长从“5s”、“10s”提升到了“X min”,还支持生成过程中的交互需求。
可以看出,百度蒸汽机的技术规划算是极具前瞻性和体系化的,它并非零散的功能更新。
这种能交互的无限长视频,很可能就是AI视频模型未来竞争的核心。而百度蒸汽机这次,无疑是抢先一步,
百度对行业趋势的敏锐洞察和技术积累,可见一斑。
据业内人士认为,除了质量提升,百度蒸汽机2.0也带来了创作成本大幅下降。其价格也只是行业价格的70%。国际知名视效指导姚骐 在此次发布会现场展示了其用百度蒸汽机2.0制作的科幻短片《归途》,并表示:百度蒸汽机让好莱坞级大片镜头不再需要百万预算。
而AI长视频功能,有更多应用和商业化空间
影视行业中,会加速其工业化转型,AI 工具将逐步承担从分镜设计到后期渲染的全流程,重塑影视行业的生产链条,使中小团队也能制作高质量影视作品。
教育与培训行业则实现沉浸式革新,AI 视频生成技术可模拟复杂操作流程,为在线教育提供虚拟助教,支持多语言教学与个性化辅导,推动教育从 “单向灌输” 向 “交互式体验” 转型。
还有就是商业与营销的个性化实现爆发,广告行业将成为 AI 视频生成的主战场,使用AI 工具不仅使单条品牌或营销视频制作时间大幅缩短,企业也可通过数字人形象与用户实时互动,提升转化率等,正在做到像与真人交流一样。
所以你看,'蒸汽机'这个名字,百度确实起得有深意。 它不仅仅是动力与效率的象征,更是开创一个新时代的预言,印证了其定义AI视频新时代的野心和能力。
使用入口:可在百度搜索、百度APP、手机浏览器百度搜索上搜:「百度蒸汽机」或应用平台「绘想」,
或者直接输入网址: https://huixiang.baidu.com 平台使用。
🌟 知音难求,自我修炼亦艰,抓住前沿技术的机遇,与我们一起成为创新的超级个体(把握AIGC时代的个人力量)。