前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Sora :新一代文本转视频工具

Sora :新一代文本转视频工具

原创
作者头像
GoBoy
修改2024-04-16 15:27:17
3730
修改2024-04-16 15:27:17
举报
文章被收录于专栏:GoboyGoboy

引言

🧠 随着人工智能驱动的视频创作技术的不断进步,视频内容制作迎来了创新的浪潮。在研究人员和工程师的引领下,人工智能正在不断突破极限,这一变革之旅正在重塑着视频制作的面貌,使之更加自由化。

借助自然语言处理(NLP)和计算机视觉技术的长足进步,现在制作高清视频只需编写简要提示语即可实现。这项技术采用复杂的算法和深度学习模型,能够解释用户输入、生成脚本、识别视觉效果,并模仿人类讲故事。整个过程涉及理解提示语的语义,同时考虑语气、情绪和语境等要素。

📡 继 Runway 的 Gen-2、Stability AI 的 Stable Video Diffusion、Meta 的 Emu 和谷歌的 Lumiere 等文本到视频生成器发布之后,OpenAI 作为 ChatGPT 的创建者又推出了一款最先进的文本到视频深度学习模型,名为 Sora AI。该模型专门用于根据文本提示生成短视频。尽管 Sora AI 尚未向公众开放,但其发布的输出样本已引起了不同的反响,一些人表示了热情,而另一些人则表示了担忧,这是由于其令人印象深刻的质量所致。


🤔 本章内容

🔎 Sora 是什么

🔎 Sora 的新视频

🔎 Sora 的使用案例

🔎 Sora 是如何工作的

🔎 Sora 的局限性

🔎 Lumiere Vs Sora AI

🔎 Sora 的道德约束

🔎 Sora 模型采取的安全措施

🔎 结论


Sora 是什么

🧐 Sora AI 是 OpenAI 在人工智能研究领域所取得的一项革命性成就,标志着多媒体创作步入前所未有的新纪元。作为一种顶尖的文本驱动视频生成解决方案,Sora AI 凭借其先进技术,能够根据用户的详尽文本输入,瞬时创作出连续且视觉效果卓越的视频片段,时长可达甚至超过一分钟。该技术的核心在于深入理解和模拟现实物理世界的多元动态行为,这意味着用户只需运用精准凝练的语言描述,就能将构思转化为细致入微的视频场景并一键生成。

现今,Sora AI 不仅限于特定的专业团队如红队(Red Teaming)群体内部应用,用来评估各类情境下的安全风险和潜在危机,而且已经广泛面向视觉艺术、设计及影视制作等领域的专业用户开放。这些用户能够利用 Sora AI 技术极大地提升创作效率,激发新颖的艺术构想,并通过实际操作提供有价值的反馈意见,助力 OpenAI 不断优化升级该模型的性能和表现力。

秉承一贯的科研精神和开源理念,OpenAI 积极邀请社会各界参与 Sora AI 的试用与持续开发过程,鼓励早期使用者与研发团队共同挖掘这款前沿技术所蕴含的无穷创造性潜能。这一举措不仅推动了人工智能技术在视频生成领域的实用化进程,更是在与用户的共创互动中,前瞻性地塑造和引领着未来人工智能发展方向。

🪐 例如:

SoraPrompt: A movie trailer featuring the adventures of the 30-year-old spaceman wearing a red wool knitted motorcycle helmet, blue sky, salt desert, cinematic style, shot on 35mm film, vivid colors.

👽 电影预告片,讲述了这位 30 岁的太空人戴着红色羊毛针织摩托车头盔的冒险经历,蓝天,盐沙漠,电影风格,用 35 毫米胶片拍摄,色彩鲜艳。

电影预告片

SoraPrompt: The animated scene features a close-up of a short fluffy monster kneeling beside a melting red candle. The art style is 3D and realistic, focusing on lighting and texture. The mood of the painting is one of wonder and curiosity as the monster gazes at the flame with wide eyes and open mouth. Its pose and expression convey a sense of innocence and playfulness as if it is exploring the world around it for the first time. The use of warm colors and dramatic lighting further enhances the cozy atmosphere of the image.

👽 动画场景的特写镜头是一个短小的毛茸茸的怪物跪在一根融化的红蜡烛旁边。艺术风格是3D和逼真的,专注于照明和纹理。这幅画的情绪是一种惊奇和好奇,因为怪物睁大眼睛和张开嘴巴凝视着火焰。它的姿势和表情传达出一种天真和俏皮的感觉,仿佛它是第一次探索周围的世界。暖色调和戏剧性照明的使用进一步增强了图像的舒适氛围。

毛茸茸的怪物

⚛️ Sora AI 能生成包含多个角色、特定运动类型以及精确主体和背景细节的复杂场景。该模型能理解用户的提示以及这些元素在物理世界中的存在方式。凭借对语言的深刻理解,Sora AI 能准确解释提示,并创造出表达生动情感的迷人角色。它可以在一个视频中制作多个镜头,保持人物和视觉风格的一致性。

Sora 的新视频

Latest Sora Prompt: A giant, towering cloud in the shape of a man looms over the earth. The cloud man shoots lightning bolts down to the earth.

👾 一朵巨大的、高耸的云,以人的形状笼罩着地球。云人将闪电射向地面。

一朵巨大的、高耸的云

Latest Sora Prompt: A Samoyed and a Golden Retriever dog are playfully romping through a futuristic neon city at night. The neon lights emitted from the nearby buildings glisten off of their fur.

👾 一只萨摩耶犬和一只金毛猎犬在晚上嬉戏地在一座未来主义的霓虹灯城市中嬉戏。附近建筑物发出的霓虹灯从它们的皮毛上闪闪发光。

霓虹灯城市中嬉戏

Latest Sora Prompt: A cat waking up its sleeping owner demanding breakfast. The owner tries to ignore the cat, but the cat tries new tactics, and finally, the owner pulls out a secret stash of treats from under the pillow to hold the cat off a little longer.

👾 一只猫叫醒熟睡的主人要求早餐。主人试图无视猫,但猫尝试了新的策略,最后,主人从枕头下掏出一个秘密的零食藏匿处,让猫多呆一会儿。

一只猫叫醒熟睡的主人要求早餐

Sora 的使用案例

🪐 文字转视频:

  • Sora 擅长将文字说明转换成具有视觉吸引力的视频,使用户能够将想法无缝转化为动态的视觉内容。

🪐 图像动画:

  • 该模型可以通过对静止图像进行动画处理,为静态视觉效果引入运动和活力,从而使静止图像栩栩如生。

🪐 视频延续:

  • Sora 可以扩展现有视频,使场景和叙事无缝衔接,提高讲故事的可能性。

🪐 视频编辑:

  • 用户可以利用 Sora 执行视频编辑任务,例如更改视频中的背景或设置,从而展示了它在增强和修改视觉内容方面的多功能性。

🌠 Sora AI 技术的应用潜力非常广泛,超越了简单的文本到视频转换功能。它可以扩展至包括但不限于动画静态图像生成、连续视频片段创造以及高级视频编辑等多领域应用。这意味着无论是平面设计师利用该技术快速将静止设计转化为生动的动画,还是教育工作者为教学内容制作定制化动画以增强学生的学习体验,甚至是建筑学和生物学的学生及专业人士采用 Sora AI 创建概念演示视频或可视化复杂的科学过程,都能从中受益匪浅。

同时,OpenAI 明确意识到随着此类先进技术的普及和发展,相应的伦理和社会风险也随之增加,比如版权问题、虚假信息传播、以及可能带来的劳动力市场变化等。因此,OpenAI 强调与外部各方合作,积极寻求用户反馈和专家意见,以确保技术的安全合理使用,并努力制定相应的指导原则和策略,以减轻潜在负面影响,充分发挥 AI 对人类社会发展的正面作用。

Sora 是如何工作的

Sora 技术依托于 OpenAI 开发的先进 DALL-E 3 技术架构,被赋予“扩散变换器”的称谓,其核心技术采用了基于潜在扩散模型的去噪方法。在这一机制中,Sora AI 利用一个经过精心设计的变换器作为核心组件来执行去噪操作,在潜在的空间维度上逐步构建三维“补丁”,这些“补丁”随后经由专门的视频解码器映射到实际的视频帧序列,从而生成高质量的连续动态视频内容。

为了进一步提升模型性能并丰富训练数据集,Sora 还引入了一项创新的视频转文字技术。该技术能够自动生成详尽且准确的视频字幕,通过对现有视频资源的深度理解和诠释,有效增强了系统的语义理解能力及跨模态学习效果,使得 Sora AI 在动画静态图像生成、连续视频创作乃至视频后期编辑等诸多场景下均展现出卓越的表现。

☄️ 该模型的架构包括视觉编码器、扩散转换器和视觉解码器。

  1. 视觉编码器可将视频压缩到一个潜空间中,从而降低维度。
  2. 扩散变换器根据用户提示生成视觉片段序列,然后视觉解码器反转编码,生成最终视频。

🌌 Sora 的工作原理

🧪 潜在扩散模型

  • Sora采用了潜在扩散模型(Latent Diffusion Model, LDM)作为基础,这种模型起始于随机噪声并通过逐步添加信息来重构目标输出。在Sora中,LDM被用于从无结构的噪声数据中逐步细化出连贯且有意义的视频帧。

🧪 Transformer架构

  • Sora整合了Transformer架构,这一架构擅长理解和建模序列数据之间的长期依赖关系。在视频生成场景中,Transformer帮助模型分析并处理连续视频帧间的时空关系,从而保证生成的视频具有流畅的动作和一致的视觉风格。

🧪 空间时间补丁

  • Sora在处理视频时采用了一种创新方法——空间时间补丁,它不是直接将文本映射到完整的视频帧,而是处理视频的局部空间时间片段。这些片段像微观视频拼图一样组合起来,形成整个视频序列。

🧪 知识集成

  • Sora内部集成了知识图谱,这些图谱包含了物理世界的规则、物体间交互方式以及不同艺术风格等信息。这让Sora在生成视频时,能够理解复杂的场景动态和语义,比如根据文本描述准确地模拟花朵绽放的过程或者根据光照变化调整视频内容。

🧪 生成流程

  • 用户输入一段描述性文本后,Sora会首先解析文本以理解其中蕴含的内容和上下文。
  • 然后,在潜在空间中依据文本描述构造出一系列对应的潜在状态。
  • 使用扩散模型和Transformer网络逐步从这些潜在状态生成实际的视频帧序列。
  • 最终,合成的视频帧经过优化和处理,形成连贯且高质量的视频输出。

🌌 Sora AI展现了新兴特性,在3D一致性、远距离连贯性、物体永恒性、交互性以及模拟整个数字世界等方面展示了一定程度的理解。我们翘首以待更多类似Sora AI的创新模型问世。

Sora 的局限性

💻 尽管Sora模型在视频生成领域展现了惊人的能力,但它仍然存在一些不可忽视的局限性。首先,在模拟复杂场景,尤其是涉及精细物理交互和动态变化时,Sora的精确度有待提高。以模拟人咬食饼干为例,模型可能无法准确呈现饼干被咬后的形态变化,如咬痕的缺失等。

  • 数据来源与版权问题

值得注意的是,OpenAI在训练Sora模型时使用了大量视频数据集。这些数据集虽然包括合法授权和公共可用的视频资源,但也涵盖了部分受版权保护的内容。遗憾的是,OpenAI并未向公众详细披露数据的具体规模和来源信息,这引发了关于版权和合规性的担忧。

  • 空间定位与时间连续性挑战

此外,Sora在处理特定类型提示时的空间定位精准性有待加强,尤其是在左右方向认知方面。面对随时间演变的连续事件,模型有时可能出现描述不准确的情况。例如,在呈现狼群繁殖后代并形成庞大群体的复杂动态场景时,Sora可能难以准确追踪并再现每个时间节点上的画面细节。

  • 未来改进方向

针对上述局限性,未来研究人员可以对Sora模型进行以下改进:

  1. 提高模型在模拟复杂场景和精细物理交互方面的能力,使其能够更准确地呈现现实世界的动态变化。
  2. 加强模型的空间定位和时间连续性处理能力,以更好地应对连续事件和复杂场景的挑战。
  3. 在数据收集和使用方面加强合规性和透明度,确保模型训练数据的合法性和安全性。

总之,尽管Sora模型在视频生成领域取得了显著成果,但仍需在某些方面进行优化和改进,以实现更加成熟和广泛的应用。

Lumiere Vs Sora AI

🧲 技术基础

  • Lumiere:基于扩散型变换器(diffusion transformer)架构,这是一种结合了扩散模型和变换器模型优点的混合方法。
  • Sora AI:同样基于扩散模型,特别是采用了级联扩散和潜在扩散技术,以及DALL-E 3中的重构技术。

🧲 生成能力

  • Lumiere:能够根据文本描述生成高质量的视频,包括各种复杂场景和动态元素。
  • Sora AI:除了生成视频外,还能扩展现有视频、为静态图像制作动画,并在短暂脱离视线时保持主体连续性。

🧲 文本理解

  • Lumiere:通过其扩散型变换器架构,能够深入理解输入文本的含义和上下文。
  • Sora AI:采用了类似GPT的变压器架构,对文本指令的理解能力非常出色,能够准确地将用户意图转化为视频内容。

🧲 视觉质量

  • Lumiere:生成的视频具有高度的视觉质量和逼真度,能够准确反映文本描述的场景。
  • Sora AI:同样以高质量的视觉效果著称,特别是在三维一致性、物体持久性和物理交互模拟方面表现出色。

🧲 灵活性和可扩展性

  • Lumiere:具有很高的灵活性和可扩展性,能够适应各种不同的应用场景和需求。
  • Sora AI:在数据管理和计算资源方面展现出卓越的灵活性和可扩展性,允许用户根据需要调整模型大小和标记数量。

🧲 安全性与合规性

  • Lumiere:在发布前进行了严格的安全性和合规性评估,确保生成的视频内容符合社会道德和法律规定。
  • Sora AI:同样注重安全性和合规性,采用了多种技术手段来检测和防止生成误导性或不当内容。

在决定选用Lumiere还是Sora OpenAI时,用户应当考虑自身对于视频质量、时长以及后期编辑灵活性的需求。两者作为前沿的人工智能驱动视频生成工具,均在实际应用中表现出卓越性能,但也偶有输出结果不一致或产生非真实感的反馈。随着技术的迭代升级,这两种模型所存在的局限性有望得到逐步克服,并进一步推动AI视频创作行业的整体进步。

尤其值得一提的是,OpenAI研发的Sora模型在场景构建与视觉布局方面展现出更先进的能力,允许用户按照不同设备屏幕尺寸和原生长宽比的要求,轻松创造出适应性极强且保持高质量的画面内容。这意味着使用Sora不仅能够实现多样化的视频生成,还能确保在跨平台分发时视频内容的美学效果与观看体验得以优化。

🛰️ 另请阅读:Google Lumiere:通过逼真的视频合成改变内容创作。

Sora 的道德约束

Sora 模型引起了人们对其可能被滥用于生成有害内容的严重关切,包括但不限于以下内容:

🔭 制作色情内容:

Sora AI 能够根据文字提示生成逼真、高质量的视频,这可能会带来制作露骨或色情内容的风险。恶意用户可能会利用该模型制作不恰当、剥削性和有害的内容。

🔭 传播假新闻和虚假信息:

Sora AI 的文本到视频功能可被滥用于制造令人信服的假新闻或虚假信息。例如,该模型可以生成逼真的政治领导人虚假言论视频,传播错误信息,并可能损害公众的看法和信任。

🔭 创建危害公共卫生措施的内容:

Sora AI 能够根据提示生成视频,这引起了人们对制作与公共卫生措施相关的误导性内容的担忧。恶意行为者可能会利用该模型制作视频,阻止接种疫苗、宣传虚假疗法或破坏公共卫生准则,从而危及公共安全。

🔭 引发不和谐和社会动荡的可能性:

Sora OpenAI 生成的视频的逼真性可能会被用来制作煽动不和谐和社会动荡的内容。例如,该模型可生成虚假暴力、歧视或动乱视频,从而导致紧张局势和潜在的现实后果。

OpenAI 预计 Sora 会对创造力产生重大影响,但也承认有必要解决安全威胁。道德问题包括模型训练数据的透明度、版权问题和权力集中,因为 OpenAI 对人工智能创新产生了重大影响。

虽然 Sora 的潜力巨大,但 OpenAI 对强大人工智能模型的垄断引发了人们对更广泛的人工智能领域的透明度、问责制和道德考量的担忧。不过,OpenAI 意识到了滥用的可能性,并正在采取措施解决安全问题。

🛰️ 另请阅读:2024 年将使用的 11 种人工智能视频生成器: 将文本转换为视频。

Sora 模型采取的安全措施

OpenAI 在其产品中发布 Sora 模型之前,正在实施几项关键的安全措施。关键点包括

🧰 内容过滤与审查

  • Sora模型可能会配备文本和图像分类器,用于在生成内容前预先筛查用户提供的文本提示,以避免生成涉及极端暴力、仇恨言论、色情、侵犯他人隐私权或版权的内容。
  • 对生成的视频帧进行实时分析,以检测并阻止不符合使用政策和道德标准的视频输出。

🧰 对抗性训练与策略

  • 与安全和伦理专家合作(Red Teaming),通过对抗性训练提高模型对于恶意输入的抵抗力,防止被用于制造虚假信息或误导性内容。
  • 开发专门针对模型弱点的安全测试方法,提前发现潜在滥用场景,并针对性地改进模型设计。

🧰 水印与可追溯性

  • 可能在生成的视频中嵌入不可见或可见的水印,以便在视频传播时追踪其源头,有助于遏制深度伪造等问题。

🧰 用户权限与审核机制

  • 实施严格的用户身份验证和权限管理,限制高风险功能的使用,并对生成的内容实施人工审核或半自动审核流程。

🧰 合规与法律法规遵守

  • 设计系统以遵循各国和地区相关的数据保护和版权法规,确保生成内容不侵犯他人的知识产权和其他合法权益。

🧰 透明度与可解释性

  • 提供模型决策的透明度,让用户了解为何模型生成特定内容,从而增强用户的信任,并便于发现和纠正潜在的误用或不良后果。

🧰 集成C2PA元数据:

  • OpenAI计划在未来模型部署中纳入C2PA元数据。这些元数据将作为额外的信息层,显示Sora模型是否为视频生成者。

🧰 与利益相关者紧密合作:

  • OpenAI将与全球的政策制定者、教育工作者和艺术家密切合作,了解他们的关切并确定积极的使用案例。此举旨在收集多元的观点和反馈,为负责任地部署和使用Sora模型提供依据。

结论

简而言之,Sora AI是一个基于扩散的模型,通过逐步将静态噪声转换为视频内容。它的独特之处在于能够一次性生成完整视频,扩展现有视频,并保持主体在短暂消失后的连续性。Sora采用了类似GPT的变压器架构,以实现卓越的扩展性能。

在处理视频和图像时,Sora以补丁形式表示它们,这使得扩散变换器能够在各种视觉数据上进行训练,包括不同的时长、分辨率和宽高比。受到DALL-E和GPT研究的启发,Sora还采用了DALL-E 3的重构技术,以提高生成视频中用户文本指令的准确性。

Sora的功能多样,可以根据文本指令创建视频,为静态图像制作动画,并通过填充缺失帧来扩展现有视频。这一模型代表了实现人工通用智能(AGI)的基础性进展,因为它展示了理解和模拟现实世界的能力。

🖥️ 参考链接:

Sora OpenAI :https://openai.com/sora

OpenAI 视频生成模型: https://openai.com/research/video-generation-models-as-world-simulators

参考文章:https://www.analyticsvidhya.com/blog/2024/02/new-gen-text-to-video-tool-sora-by-openai

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 引言
  • Sora 是什么
  • Sora 的新视频
  • Sora 的使用案例
  • Sora 是如何工作的
  • Sora 的局限性
  • Lumiere Vs Sora AI
  • Sora 的道德约束
  • Sora 模型采取的安全措施
  • 结论
相关产品与服务
NLP 服务
NLP 服务(Natural Language Process,NLP)深度整合了腾讯内部的 NLP 技术,提供多项智能文本处理和文本生成能力,包括词法分析、相似词召回、词相似度、句子相似度、文本润色、句子纠错、文本补全、句子生成等。满足各行业的文本智能需求。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档