Sora 会造就下一个抖音吗

莫尔索

发布于 2024-03-15 14:53:17

1480

发布于 2024-03-15 14:53:17

最近与 Sora 有关的新闻内容层出不穷，短时间被大量的“颠覆”、“不存在了”，“炸裂”刷屏后，但是好像没看到讲透 Sora 技术代表的未来图景是什么的文章，这里我想分享下去年 4 月份在 Substack 上读到的一篇文章，作者视角新颖，洞察深刻，虽然讲的是 Midjourney，但是放在 Sora 技术话题方面仍然适用，于是决定全文翻译并分享给大家，同时会在末尾推荐国内几篇和 Sora 话题相关的高质量内容。

全文翻译如下

Midjourney 正在崛起，有望成为下一个 Netflix（甚至挑战 YouTube）。理解这一趋势有助于我们揭开生成式 AI 的神秘面纱。

Midjourney 的背后是一支由 11 人组成的自筹资金团队，他们正朝着成为下一个 Netflix 的目标迈进。他们拥有成功所需的一切要素：增长、数据、用户以及一个高辨识度的品牌。

那么，一个主要依赖提示词来生成图像的 AI 绘图平台，该如何与 Netflix 竞争呢？

首先，我们对生成式 AI 有一个误解：它不仅仅是创造旧媒体内容的工具，它本身就是一种「新媒体」。

随机性与惊喜

当你第一次尝试 Midjourney，可能会不知道要请求什么，生成的图像也许并不完全符合你的期望，这可能会让你有些失望。但别急，很快你就会上瘾，不断地尝试新的提示词。

比如，如果你想生成一只会飞的狗，可以从发送「dogs that can fly」这样的提示词开始：

不久，你就会变成「提示词工程师」，不断丰富你的提示词库：

a golden retriever catching a frisbee in mid-air, Central Park, New York City, action photography, texture, film grain, intricate hasselblad dslr RAW, sunset（纽约市中央公园，一只金毛猎犬在半空中捕捉飞盘，动作摄影，纹理，胶片颗粒，复杂的哈苏数码 RAW，日落）

当 Midjourney 接收到提示词并开始生成图像时，首先会呈现一个模糊的视图（这是 AI 从纯噪声到图像演变的过程）：

完成后，系统默认会返回四张图像（你可以选择放大细节或创建变体）：

最终结果：

完美吗？可能不是…… Midjourney 生成图像的过程似乎并非一蹴而就。所以……你会不断优化提示词，重试，创造更多变体。

这种不断尝试改进的交互才是关键。所谓的用户体验，就像你反复观看最爱的电影，每次都能有不同的体验。

故事、风格与新媒体

想象一下，如果《哈利波特》是由韦斯 · 安德森导演的：

或者是由皮克斯动画工作室制作的：

但……这些只是一些有趣的图像吗？只是一种 AI 生成的粉丝艺术吗？

当然，我们也可以探讨更深层次的东西。人们很容易被 AI 生成的图像吸引，所以那些关于女王或教皇的创意图像可以在社交网络上迅速传播。

但这恰恰凸显了媒体范式转变带来的挑战：我们看到的都是熟悉的事物。在这种情况下，我们关注的是「成品」（图像、视频或音乐），而忽略了创作过程本身就是一种「新媒体行动」。

想象一下：

你打开一部《哈利波特》电影，然后说：“嘿，Siri，给我改成韦斯·安德森的风格！”
当你看得正高兴时，界面上突然浮现一个「泡泡」：这是其他观众创建的「提示」，并且已经被点了一百万个「赞」。你戳破泡泡，哈利波特立刻变成了女主角！
继续观看，当看到魁地奇比赛时，界面上会有一个「remix」图标，点击就可以使用语音提示来更换比赛场地或游戏规则。

所以，你看得这部电影算是媒体吗？也许是吧…… 因为你仍然可以像往常一样享受它。

那它现在算不算是 Netflix 出品的《黑镜：潘达斯奈基》那样的「互动电影」呢？某种程度上也算，只不过替代剧情是由其他用户「提示」的。

但剥离开表象，你可以将自己生成的提示词转化为另一种东西：一种媒体，它是一种消费体验，部分是由你可以与之对话的 AI 实现的。

AI 激发了一种全新的媒体形态，它不仅提供内容，还包括了富有创造性的“智能”对话服务。

涌现与社区的力量

在前文所述中，AI 展现了两个超越人类认知的特点，甚至可以说已经形成了一种关于 AI 的神话（至少在我看来）：

你的提示词不只是与 AI 系统进行简单的互动

你输入的提示词以及对生成结果的反馈，实际上是与系统中所有用户的数据相结合，包括那些最初为 AI 提供训练数据并持续贡献的 LLMs。

设想一下，每天有数千亿个数据点被整合进训练模型，然后不断被优化和强化。你今天输入的提示词生成的狗狗图像，可能明天就会有所改进（或者呈现出不同的风格）。

AI 系统的本质是涌现的，充满了不可预测性。

在 Midjourney 中，当你输入提示词，那些从模糊到清晰的图像生成过程，实际上是一个庞大概率生成器的一部分。尽管 Midjourney 可以通过调整权重、对抗网络和持续训练来优化生成结果，但其核心仍然是一个随机生成器。

一旦图像生成，你还可以对其进行微调，比如将狗狗替换为猫咪，或者进行更细致的调整。但在默认情况下，生成式 AI 似乎已经具备了某种自主意识。

实际上，在系统的最深层次，即使是 AI 工程师也无法完全理解其运作机制。

这两点对于理解 AI 作为一种新媒体的本质至关重要。它们意味着：

故事的新颖性：AI 创作的内容可能会超越我们的认知界限，这种新颖性可能会在观众或创作者与 AI 之间产生一种紧张的关系。AI 的创作过程模仿了人类的创作，但又有所不同，这种微妙的差异让 AI 与人类创作者之间的关系变得复杂。AI 的创作可能会超出我们的预期，甚至失控。
AI 媒体产品的多变性：与过去不同，AI 时代的媒体作品不再有固定的形式。在过去，一旦创作完成，无论是书籍、电影还是漫画，它们的形式就固定下来了。粉丝艺术可能会增强 IP 的影响力，但这种创作模式本质上是静态的，反映了旧媒体的局限性。而在 AI 媒体时代，我们可能不再追求所谓的“经典”作品。AI 生成的媒体内容可能是静态的，但新媒体则是变化的、动态的、充满新奇的，通常在沉浸式的环境中体验最佳。

媒体转型 101

AI 带来了一个有趣的悖论：它既是传统媒体的制作工具，同时也是媒体本身的一种新形式。

AI 作为媒体，其发展过程在某些方面与历史上的媒体变革有着相似之处：

最初，新媒体似乎只是基于某些新技术的小众传播方式。无论是书籍、广播、录像带还是流媒体，技术问题总是首要解决的难题。
随着技术问题的克服，焦点转向了如何扩大受众和覆盖面。如何让书籍、流媒体频道、电视广播和交互式媒体进入更多家庭？这时，界面设计变得至关重要，良好的用户体验让新媒体更容易被大众接受。
接下来，人们开始努力理解新媒体的“语法”。广播类似于舞台剧，电视类似于广播节目，流媒体则类似于电视。
随后，热门产品开始出现，它们利用新媒体的特性，并采用新的叙事手法来吸引观众。比如简·方达的健身操、《黑道家族》以及移动互联网时代的 Instagram 应用等。

然而，AI 的独特之处在于，它是首个能够“回溯”并影响以往媒体的媒体形式。电视并没有改变广播的制作方式，流媒体也不是为了制作广播电视而设计的。

但 AI 不同，它既是电影制作人、作家、摄影师和音乐家的工具（甚至可能完全取代他们），也是一种全新的媒体形式。

因此，许多关于 AI 的报道都集中在它如何生成社交媒体上的图像、在 Amazon 上出售的书籍或游戏中的 3D 元素。

但别忘了，AI 本身就是一种媒体。

基于这些，我们可以开始预测未来的发展。其他人也在想象由 AI 生成的未来：

红杉资本将即将到来的时代称为“个性化梦想”的时代。

Scott Belsky，Behance 的创始人兼 Adobe 的首席产品官，设想了一个合成娱乐的新世界。他提出了“大张旗鼓即服务”的概念，让 AI 生成的作品来庆祝你的创意成果，并预测我们将在未来 12 至 18 个月内看到第一部由 AI 制作的原创 Netflix 节目。
Jon Radoff 想象未来的沉浸式空间将专注于内容的可组合性，即轻松集成、链接和组合创意内容的能力。这意味着我们将看到更多新奇故事的诞生。

作为新媒体的 Midjourney

Midjourney 正朝着成为 AI 媒体时代的 Netflix 迈进，这背后的核心理念非常简单：内容为王。

与那些只关注技术工具开发的公司不同，例如 Stability AI 提供了 Midjourney 的基础技术支持，而 OpenAI 则专注于模型训练、工具和 API 的开发，Midjourney 更注重内容的质量和用户体验的提升。

正如历史上电视机、收音机或 VHS 磁带的制造商可能在初期赚得盆满钵满，但最终胜出的是那些拥有电影公司和知识产权的持有者。Midjourney 显然已经认识到了这一点，并且正在积极地构建自己的内容生态。

Midjourney 打造的“观看频道”已经初具规模，拥有百万级别的频道，形成了一个初级的“广播”平台。这个平台还引入了类似于 Netflix 的“点赞”功能，即“rank pairs”，让用户可以对内容进行评价和排序。

尽管 Midjourney 目前还处于发展初期，但其不仅仅是一个技术工具，它正在逐渐成为一个社区平台、社交网络，甚至是一个具有广播功能的公司。这种多元化的发展策略，预示着 Midjourney 在 AI 媒体时代的巨大潜力。

内容优势在代码中

在幕后，Midjourney 正在培养其独特的优势。如果将 AI 交互视为一种新兴媒体，那么制作热门内容就显得至关重要。

以下是对 Midjourney 运作方式的简要说明，至少触及了一个层面（我会避免深入讨论 AI 训练的细节）：

LLMs 解析提示词，提示词即数据

想象一下，如果你是一个电视网络，你不仅能获得收视率数据，还能了解观众的观看历史。或者以 TikTok 为例，你不仅知道用户在看什么，还能深入了解他们的偏好和意图。

Midjourney 不仅提升了对提示词的响应能力，还能通过分析用户偏好来创造内容，这让它拥有了深刻的洞察力。虽然这在 AI 领域并不新鲜，但像 Midjourney 这样规模化的平台正在积累越来越丰富的用户洞察，这些洞察还能反馈到系统中。

Checkpoint 管理

当你发出请求后，生成式 AI 会从随机噪声开始，逐步调整像素点以生成符合你提示的图像。Checkpoint 技术可以在关键时刻“保存”进度，然后从最有可能产生高质量图像的点继续生成。

例如，如果你想生成一幅带有船只的油画，你可以训练模型找到最佳生成步骤，再结合大量用户反馈，以快速且高质量地完成图像。

Midjourney 正在构建一个庞大的 Checkpoint 模板库，包括不同主题的模板。想象一下，如果你拥有最佳的“喜剧剧集”创作模板，那会是怎样的情景。

美学引擎

Midjourney 的真正魅力在于它正在构建的庞大美学引擎。它不直接决定风格和类型，而是通过规模效应，在创作者社区和系统之间形成闭环，实现一种群体智慧，生成真正符合用户需求和审美的内容。

从这个角度来看，Midjourney 更像是 HBO 而非 Netflix。HBO 以其高质量内容而闻名，Midjourney 也追求类似的定位，尽管这些内容的美学特质是由代码而非传统影视工作室定义的。

新媒体巨头之路

以《继承之战》最终季首集的观众人数作为参照，我们可以对 Midjourney 的影响力进行评估：

目前，Midjourney 每天创造超过 27.5 万张图像（最高估计），官网每月浏览量超过 400 万次，Discord 服务器上有近 1500 万活跃成员。

虽然这与 Instagram 每天上传的 1 亿张照片相比还有差距，但我们可以将其视为一个庞大的内容创作焦点小组。

为了成为“下一个 Netflix”，Midjourney 需要从媒体的演变中学习，并牢记：技术固然重要，但无缝的用户体验和令人赞叹的内容才是取胜的关键。

如果 Midjourney：

开始根据不同类型的“频道”对内容进行分类。无论你想看惊悚片还是动漫，都能轻松切换。
创建了一个“优雅”的提示功能模块。就像之前提到的《哈利波特》例子，只需在 Midjourney 网站上点击“remix this”按钮，就能轻松获得想要的效果，无需深入研究复杂的提示词。
与杰出的故事创作者合作，为特定宇宙创建训练模型。想象一下，如果 Midjourney 推出了官方认证的《哈利波特》版本，并拥有书籍、媒体和游戏 IP 的改编权，那将是多么激动人心的事。
为创作者提供收益支持，无论是在 AI 生成内容的过程中，还是在内容生成后（如出售或分享图像）。
当 AI 生成的视频内容开始流行时，依然能够专注于提供卓越的用户体验和精彩内容。

旧媒体可能会倾向于固守自己的领地。

YouTube 可能会调整策略，引入 AI 工具来生成视频内容，甚至 Netflix 也可能会播放完全由 AI 生成的节目。

但正如历史所示，新一代的创新者总会打破旧有的思维模式、界面设计、风格类型和叙事规则。

Midjourney 拥有足够新颖的视角、庞大的规模和宏伟的愿景，意识到在 AI 时代，它完全有可能成为下一个 Netflix。

Sora 扩展阅读

去魅 Sora: OpenAI 鲜肉小组的小试牛刀

「Sora = Magvit + DiT + NaViT + Video Caption，技术上没有太多的创新，但工程上做了大量的工作。Sora 这套框架的优化目标是找训练数据的分布，而不是数据的最小描述长度。所以 Sora team 对博客的标题起的是物理世界的模拟器，不是物理世界规律的发现者。」

【老奇】阴差阳错撼动世界的游戏引擎[1]

「当前的 Unreal Engine（虚幻引擎）等游戏引擎通过复杂的物理公式来模拟现实世界的运作，这些公式涵盖了力学、光学、声音等多个方面，以确保游戏世界的真实性和互动性。这些模拟是基于人类对物理世界规律的理解，并且是在人类认知范围内可以解释和预测的。相比之下，Sora 这样的技术可能通过机器学习和大数据分析，从海量数据中学习并识别出世界的运作模式（pattern）。这些模式可能是人类难以直观理解的，因为它们可能涉及到非常复杂的数据关联和非线性关系。Sora 的优势在于它能够处理和分析远超人类处理能力的大量信息，并从中提取出有用的模式，这些模式可以用来预测未来事件或优化决策过程。」

3.截止目前，OpenAI 官网，OpenAI 官方 X 账号，OpenAI 官方 Tiktok 账号总共发布的 108 个视频和提示词汇总（后台回复 Sora 获取）

「大家可以忽视所有的自媒体文章和 KOL 解读，逐个去感受下 Sora 生成的视频和真实世界的视频、游戏引擎渲染视频以及 CG 特效的区别，重点是观察一些违反物理常识的细节，很有意思，可以直观感受下 Sora 当下的能力边界」