首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

文生视频大模型阵列再添“新成员” 智谱AI生成视频模型“清影(Ying)”上线

IT时报记者 孙永会

今年开春,Sora的诞生引发了人工智能界的热议和关注。在2月26日,Open AI发布了该大模型,宣告其仅需通过文本即可自动生成视频。《IT时报》早前报道,尽管文本生成视频并非始于Sora,但它是继文本模型ChatGPT和图片模型Dall—E之后,又一个具有颠覆性的大模型产品。具体表现在以下方面:其一,可以直接输出长达60秒的视频;其二,在于以假乱真,复杂精细的背景环境、动态多变的运镜、多样化的角色表现,以及一镜到底或多机位切换的衔接,实现了逼真的效果。

随着企业竞相入局,国内文生视频大模型也进入加速阶段,比如两个多月后,生数科技联合清华大学发布了视频大模型Vidu,被称为国产Sora;6月,快手推出视频生成大模型——可灵,支持文生视频、图生视频以及视频续写功能。

在7月26日,文生视频大模型阵列再添“新成员”——智谱AI CEO张鹏在智谱Open Day上宣布,AI生成视频模型清影(Ying)正式上线智谱清言。只要有好的创意,无论是几个字,还是到几百个字,然后再等待30秒,清影(Ying)就能生成1440x960清晰度的高精度视频。这一大模型具有哪些亮点和功能?

人人免费不限次 使用有技巧

自7月26日起,清影上线于智谱清言App,面向所有用户开放,此外,用户还可以在PC端、小程序均可使用相关功能。此外,清影(Ying)API 也同步上线大模型开放平台bigmodel.cn,企业和开发者通过调用API的方式,可体验和使用文生视频以及图生视频的模型能力。

在操作方面,当输入一段文字后(俗称Prompt),用户可以选择自己想要生成的风格,比如卡通3D、黑白、油画、电影感等,再配上该大模型自带的音乐,就可生成具有AI“想象力”的视频片段。

除了文本生成视频,也可以进行图片生成视频。图生视频的玩法亦比较丰富,包括表情包梗图、广告制作、剧情创作、短视频创作等。此外,基于清影的「老照片动起来」小程序也会同步上线,只需一步上传老照片,AI就能让凝练在旧时光中的照片灵动起来。

就此,《IT时报》记者进入智谱清言APP进行了体验。

点击体验清影—AI生成视频后,记者在“灵感描述”框输入以下内容:“在中国的农村,有农民正在田野里收割稻谷,有个孩子在快乐地玩耍。”其次,记者选择了电影感的视频风格,情感氛围为温馨和谐;此外,在水平、垂直、推近和拉远四类运镜方式中选择了“推近”。提交需求后,页面显示需要排队等待。

(图为清影所生成视频的截图)

记者对生成的视频整体感到满意。记者还注意到,倘若想要给清影加速,用户可以选择以充值的方式完成,据相关页面显示,目前24小时内的加速价格为5元,1年内使用加速功能为199元。

如何让视频达到更加理想的效果?用户可以掌握关于提示词的守则,即一个复杂公式:镜头语言+光影+主体描述+主体运动+场景描述+情绪/氛围/风格。比如“小男孩喝咖啡”是无结构提示词,而有结构的提示词可如此操作:摄影机平移(镜头移动),一个小男孩坐在公园的长椅上(主体描述),手里拿着一杯热气腾腾的咖啡(主体动作)。他穿着一件蓝色的衬衫,看起来很愉快(主体细节描述),背景是绿树成荫的公园,阳光透过树叶洒在男孩身上(所处环境描述)。总体而言,提示词越详细,效果则会越好。

关于大模型背后的技术

当前,北京正在打造人工智能产业高地。“海淀区是智谱AI总部所在地,为智谱AI开展大模型研发提供了产业投资、算力补贴、应用场景示范、人才等方面的支持。”张鹏表示,清影(Ying)在北京亦庄算力集群诞生,未来也将应用于该区域广阔的高精尖产业集群,形成大模型赋能实体经济的新业态。

值得一提的是,Bilibili 参与了清影的技术研发过程,华策影视也参与了模型共建。

据其介绍,清影(Ying)底座的视频生成模型是CogVideoX,该模型能将文本、时间、空间三个维度融合起来,与Sora采用了相同的DiT架构。同时通过优化,CogVideoX推理速度提升了6倍。理论上,模型侧生成6秒视频仅需30秒时间。

新型DiT模型架构,更高效地压缩视频信息,以及更充分地融合文本和视频内容,让清影在复杂指令遵从能力、内容连贯性、大幅的画面调度上具有一定独到之处。“在生成式视频模型的研发中,坚信大模型最终性能主要与计算量、模型参数量和训练数据量相关的Scaling Law定律,继续在算法和数据两方面发挥作用。”张鹏指出,随着算法、数据的不断迭代,智谱也将继续在模型层面探索更高效的scaling方式。

此外,智谱还自研了一个端到端视频理解模型,用于为海量的视频数据生成详细的、贴合内容的描述。这意味着,即使用户在使用视频生成模型时给模型下了复杂的“咒语”,模型依然可以理解prompt指令。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OwJM0ovwlPBIOZhXBLNSoKIw0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券