当科技巨擘马斯克的预言再度落定,人工智能在影视创作领域的里程碑式突破如约而至。2024年,被誉为“人工智能电影元年”,而新年之初,一款名为Sora的AI视频生成技术以其革新性的表现横空出世,彻底颠覆我们对视频制作的认知。
| 破晓未来:Sora演绎AI视频进化史诗
马斯克曾在GPT技术引发全球AI热浪之后,于2023年11月27日预见性地断言,2024年将成为“人工智能电影”的诞生元年。如今,Sora以实力验证了这一预言。
这款由OpenAI研发的尖端技术,在新春之际,以一键输出一分钟连贯高清视频的形式,展现出了无与伦比的细节刻画力和情境构建能力,无论是复杂多变的背景设计、细腻的情感表达还是多视角切换,均超越了现有所有AI视频技术,尽显王者风范。
Sora的成功秘诀在于融合Transformer与Diffusion两大模型的威力。Transformer家族成员如ChatGPT、Gemini及LLaMA等凭借其对语言的理解和生成能力,已在诸多领域独领风骚;而Diffusion模型则以其“文生图”特性,将文本转化为生动立体的画面。Sora正是将两者的优势相结合,创造了一种全新的视觉叙事模式。
| 理解世界的维度:Sora的独特价值
专业机构评价,Sora的真正强大之处并非仅仅在于静态画面的精美程度,而是体现在对于视频内在逻辑的高度一致性。无论镜头拉远至全景,或是贴近到特写,画面中人物与背景的互动关系始终保持精准协调,这种对物理世界复杂动态关系的理解与呈现,才是Sora在行业内遥遥领先的标志。
尽管Sora所展示的世界模拟能力令人瞩目,但也引来业界争议。图灵奖得主、Facebook首席AI科学家Yann LeCun质疑Sora并未真正理解物理世界,他推荐Meta最新推出的V-JEPA联合嵌入预测架构,强调其在物理模拟上的优势。
同时,前谷歌、Facebook技术主管Hongcheng也提出,AI模型单纯通过观看训练数据视频无法深入理解物理定律。部分专家分析,Sora的视频生成目前更多依靠数据插值和潜在空间拼贴,而非真实的物理仿真过程。
回溯近几年,随着大语言模型和视频生成技术的飞速进步,AI已经深度介入视频创作领域,显著降低创作门槛,激发创作灵感,极大提升了视频内容的生产力。
在Sora之前,诸如Runway、Pika、Descript等AI视频工具各领风骚,,每款产品都在各自的细分市场中留下深刻印记。分别以其独特的文字生成视频、图片生成视频及混合编辑功能赢得了市场青睐。
其中,Runway的技术在奥斯卡获奖影片《瞬息全宇宙》的视觉效果制作中发挥了关键作用,助力打造视觉奇观。
Pika则凭借简单的操作和高质量的3D动画迅速走红
而Descript通过独特的文本同步视频编辑功能,使视频创作变得更加直观易行。
Descript通过编辑文本来编辑视频中的图片颜色
Sora的到来,标志着视频创作步入了一个全新的阶段,它的出现引发了对未来“世界模拟视频生成模型”的热烈探讨,同时也被认为很可能加速通用人工智能(AGI)时代的到来。
ChatGPT中的插件Visla可以根据用户输入的一句话,快速生成有字幕、有语音讲解、有情节的小视频。
一系列类似HourOne、Fliki等创新型公司的涌现,借助大语言模型的力量,将AI视频创作推向更高层次,打造出虚拟主播、自动配音等多种应用场景。
HourOne利用字符生成技术,通过AI将人类的外貌、声音和动作复制创建出"虚拟人"。这些虚拟人可以朗读文本,从而化身为“教师”“新闻播报员”“虚拟代言人” 等角色。
Fliki 则可以根据文本生成逼真的人类语音和视频内容,并配以相应的虚拟人物或动画创造出吸引人的视听内容。
2024年的龙年初始,AI视频技术正在以前所未有的速度实现垂直增长,视频创作迈入便捷化、智能化、高效化的全新纪元。
微软全球资深副总裁张祺博士提出的“垂直增长”理念及其发起的“单人创业家”行动,恰好映射出这一趋势——个人创作者在AI的赋能下,将成为创新的核心驱动力,打开一个任何人都能轻易驾驭视频创作的时代,共同书写AI驱动下的视频艺术新篇章。
在这个充满挑战与机遇的变革时代,让我们一起期待视频创作行业在AI的引导下繁荣发展,开启一个颠覆传统、创造未来的全新创作纪元。
领取专属 10元无门槛券
私享最新 技术干货