首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >当万相2.5刚开卷有声视频,7月已经发布音频一体化的百度蒸汽机又开卷长视频了

当万相2.5刚开卷有声视频,7月已经发布音频一体化的百度蒸汽机又开卷长视频了

作者头像
AI进修生
发布2025-09-30 15:40:40
发布2025-09-30 15:40:40
890
举报
文章被收录于专栏:AI进修生AI进修生

🍹 Insight Daily 🪺

Aitrainee | 公众号:AI进修生

Hi,这里是Aitrainee,欢迎阅读本期新文章。

牛逼了,以往聊AI视频是画面多真、角色多稳 or 对物理世界的理解。

今天来了一个可以生成任意长度视频,并且生成中可以随时终止、提交新的prompt

百度的这个想法确实不错,视频无限生成(AI长视频)感觉会是一个趋势。

通用大模型卷,AI视频模型也卷得飞起

Veo3 火,大家都知道它的一大特点就是音视频一体生成,昨天Wan2.5也是支持音视频一体化了,而其他的(即梦、可灵等等)都是割裂的流程,先生成画面再配音频。

不过查了一下,第一个中文音视频一体化视频视频生成模型应该也是百度的:他们在7月份发布了MuseSteamer蒸汽机视频生成模型,可实现画面与音效、人声台词的协同创作。

今天他们也是把这个模型升级了:突破5s和10s的限制,逻辑上可以生成任意长度,同时生成的过程中可以更新prompt进行交互式生成

输入网址 https://huixiang.baidu.com 平台使用。

具体细节如下:

流式长视频生成体验的长视频模型,模型推理出多少,就能看到多少。 图+prompt输入,长视频直接生成,用户可自行调整需要生成的视频长度(10-1min区间) 可灵、即梦暂时没有此能力,目前主要推出的长视频产品主要还是基于首尾帧能力,操作流畅度差。

19秒丛林探险镜头一镜到底

百度蒸汽机MuseSteamer 生成的19S 丛林探险的氛围镜头,动态感十足,把我们瞬间带入了这个丛林探险的氛围里。

开场是一个非常经典的跟随镜头,人物稳定在画面中心,你可以看到时的随着镜头移动,光影也会发生变化。

最后5秒指令是“环绕到人物正面”。镜头非常流畅地从人物的侧后方划过一道弧线,最终来到了他的侧前方,露出了人物的侧脸和表情。

整个过程非常连贯,人物模型、背包、衣物都没有出现闪烁或变形,带有弧度的环绕运镜,提升了视频的电影质感。

prompt:1—5s镜头跟随,人物快速向前走。6—10s镜头跟随,人物向前走向楼梯。11—15s人物向前走,镜头跟随,右摇16—20s人物向前走,镜头跟随,右摇,环绕到人物正面

前面的AI视频创作更像是5s、10s开次盲盒,比如一个60秒的短片有6次需要卡住,然后在那疯狂roll,并且超过10s的部分得靠首尾帧来拼接,这是没有这种长视频这么连贯的。

现在开盲盒的时间可以缩短到几帧,生成中随时可通过提示词去创作后面的剧情,还能基于现有画面随时修改剧情。。

《荒野大镖客》即视感,AI生成的西部片段

20s西部牛仔镜头:模型理解了“向前走”,还能理解“镜头右摇”、“推门进去”这种包含动作、运镜、交互的复合指令。每一次“续写”,新的画面能与之前的内容丝滑无缝地衔接;人物的服装、步态,还是环境的光影、尘土,都保持了完美的一致性。

prompt:1—5s镜头跟随,牛仔走向右方马车。6—10s人物向前走,镜头跟随。11—15s人物向前走,镜头跟随,右摇16—20s镜头跟随,牛仔推开门进去。

你可以随时暂停,根据已生成的画面,提出新的想法和指令,引导剧情发展。这就像拥有了一块无限大的画布,灵感迸发时可以随时修改和添加,让创作过程变得更灵活、更可控。

小纸船漂流(26s)

船在水中随着水流的湍急与平缓,产生自然的颠簸、旋转和摇晃。水流撞击在石头上会溅起真实的水花和泡沫,水面上的光影反射也随着水波的荡漾而不断变化。

从头到尾,这只黄色的纸船始终保持着它固有的形态和结构,没有突然多一个角,也没有在水流中“融化”。同样,周围的环境,无论是石头、野花还是远处的树林,都保持着风格和形态一致性。

prompt:小纸船在小河里漂流

小鸭子水中嬉戏(17s)

让一群相似的主体同时保持稳定,并且各自拥有独立的、合理的动态。视频涉及场景转换:从水中到陆地。

小鸭子在水中游动时,水面泛起的涟漪和它们清晰的倒影,阳光洒在水面上形成的波光粼粼的效果.

随着小鸭子们的行进路线,视频的镜头有一个平滑的摇摄(Pan)运镜。增强了视频的沉浸感和故事性。

当小鸭子们走上岸,阳光照射在它们黄色绒毛上时,你可以清晰地看到绒毛的质感和边缘的光晕。它们的影子也随着身体的移动和地形的变化而产生自然拉伸和变形。

prompt:小鸭子在水中嬉戏,有几只喝水,有几只划水,接下来排着队往前游,游到了岸边,拍打着小翅膀,往前边的草地上走去。

堪比高预算3DCG的质感:二次元少女环绕镜头

MuseSteamer 支持首尾帧,输入:首尾帧、prompt:镜头环绕着人物

人物的发丝动态效果、毛发物理的真实度、光影氛围营造得可以说是非常逼真了。整个感觉就是一个很流畅的感觉。

每一缕头发,从内层的深色到底层的橙色再到外层的银白色,都有独立的动态。它们在“风”的作用下,飘动、散开、再聚合,层次分明,灵动飘逸,没有一丝僵硬或粘连感。

逆光穿过发丝缝隙,形成了美丽的轮廓光和体积光,让整个头部显得通透而富有立体感。发丝的每一次飘动,都伴随着光影的细腻变化。

在AI视频这条赛道上,各家大厂都在加速狂奔

我们来看一下这张“AI视频生成模型技术发展路径图”:

国内第一个实现“音视频一体”的是百度蒸汽机1.0。

8月——蒸汽机2.0多人有声,8月份这个版本主要是多人的。据悉,百度蒸汽机视频生成模型主打“多人对话音视频一体化生成”。用户仅需输入一张参考图和一段文本描述,即可直接生成具备电影级质感、包含多人对话与精准口型同步的视频内容。

prompt:身穿古代盔甲的武士坐在开阔场地的木桌两侧,手持麻将牌进行牌局对战,两人嘴唇微动进行对话。麻将牌整齐排列在桌面的深色棋盘纹布上,背景可见随风飘动的军队旗帜。左边人物说话:"将军,咱们在这打麻将不太好吧?" 右边人物说话:"你是不是输钱输怕了?!"

9月——蒸汽机“流式无限生成”长视频,如图所示,这直接将视频时长从“5s”、“10s”提升到了“X min”,还支持生成过程中的交互需求。

可以看出,百度蒸汽机的技术规划算是极具前瞻性和体系化的,它并非零散的功能更新。

这种能交互的无限长视频,很可能就是AI视频模型未来竞争的核心。而百度蒸汽机这次,无疑是抢先一步,

百度对行业趋势的敏锐洞察和技术积累,可见一斑。

据业内人士认为,除了质量提升,百度蒸汽机2.0也带来了创作成本大幅下降。其价格也只是行业价格的70%。国际知名视效指导姚骐 在此次发布会现场展示了其用百度蒸汽机2.0制作的科幻短片《归途》,并表示:百度蒸汽机让好莱坞级大片镜头不再需要百万预算。

而AI长视频功能,有更多应用和商业化空间

影视行业中,会加速其工业化转型,AI 工具将逐步承担从分镜设计到后期渲染的全流程,重塑影视行业的生产链条,使中小团队也能制作高质量影视作品。

教育与培训行业则实现沉浸式革新,AI 视频生成技术可模拟复杂操作流程,为在线教育提供虚拟助教,支持多语言教学与个性化辅导,推动教育从 “单向灌输” 向 “交互式体验” 转型。

还有就是商业与营销的个性化实现爆发,广告行业将成为 AI 视频生成的主战场,使用AI 工具不仅使单条品牌或营销视频制作时间大幅缩短,企业也可通过数字人形象与用户实时互动,提升转化率等,正在做到像与真人交流一样。

所以你看,'蒸汽机'这个名字,百度确实起得有深意。 它不仅仅是动力与效率的象征,更是开创一个新时代的预言,印证了其定义AI视频新时代的野心和能力。

使用入口:可在百度搜索、百度APP、手机浏览器百度搜索上搜:「百度蒸汽机」或应用平台「绘想」,

或者直接输入网址: https://huixiang.baidu.com 平台使用。

🌟 知音难求,自我修炼亦艰,抓住前沿技术的机遇,与我们一起成为创新的超级个体(把握AIGC时代的个人力量)。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-09-25,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AI进修生 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 通用大模型卷,AI视频模型也卷得飞起
  • 19秒丛林探险镜头一镜到底
  • 《荒野大镖客》即视感,AI生成的西部片段
  • 小纸船漂流(26s)
  • 小鸭子水中嬉戏(17s)
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档