OpenAI发布Sora视频生成模型

文章来源：企鹅号 - AI技术新动态

OpenAI发布Sora视频生成模型

OpenAI突然推出了Sora，一个令人印象深刻的文本到视频的AI模型，能够直接从文本提示和图像中创建逼真而连贯的视频生成，长度可达一分钟。

Sora结合了GPT和DALL-E的特点，以更好地理解物理动力学，并在生成的镜头中保持细节，以获得逼真的输出。

该模型可以从文本提示和静态图像生成长达60秒的视频，并且还可以在现有视频中插入场景。

在潜在的广泛发布之前，Sora目前正在向红队和选择的创作者提供早期反馈。

尽管训练数据尚不明确，但NVIDIA人工智能研究员Jim Fan博士推测该模型是使用虚幻引擎的合成数据开发的，称其为“许多世界的模拟，无论是真实的还是幻想的”。

OpenAI突然在视频领域取得了巨大的突破，使我们更接近几乎无法区分现实的输出。Sora似乎为创造性解锁和恶意行为者带来了新的恐慌能力。无论好坏... AI视频游戏完全改变了。

谷歌推出具有巨大上下文窗口的Gemini 1.5

在推出Gemini Ultra一周后，谷歌刚刚发布了升级的Gemini 1.5模型，具有突破性的100万令牌上下文窗口（在测试中可达到1000万），可处理比以前的AI系统更多的数据。

Gemini 1.5 Pro可以处理70万字的文本、3万行代码、11小时的音频或1小时的视频，实现了突破性的处理能力。

尽管上下文窗口非常大，但升级后的模型仍然保持性能，能够从大量的文本、代码和视频中分析细节。

1.5版本将以128K上下文窗口的形式向公众发布，并随着模型的改进而扩大。

目前，完整的100万令牌版本仅对经过批准的开发者和企业客户开放。

除了扩展的上下文，Gemini 1.5还提供了更高效的性能改进，与顶级的Gemini Ultra模型相当。

谷歌刚刚推出Gemini Advanced，随后迅速推出了另一个重大升级。巨大的上下文窗口解锁了新的能力，例如分析整本书、完整电影、大型代码库等，使Gemini在LLM战争中有了重要的差异化和新的优势。

密歇根大学是否出售学生数据用于AI训练？

密歇根大学在X（前身为Twitter）上面临重大的抨击，原因是该校的第三方供应商在未经学生同意的情况下，向AI公司提供了许可的讲座和论文数据集，用于训练LLM模型。

一位Google DeepMind的工程师发布了一封电子邮件的截图，该邮件提供了超过80小时的学术演讲和829篇未发表的学生论文。

这则广告来自Catalyst Research Alliance，示例数据集包括1999年的讲座，论文和录音的价格高达25,000美元。

然而，密歇根大学的发言人表示，分享的信息是“不准确的”，数据是“自愿贡献的”。

密歇根大学表示数据是自愿提供的，但很难辩称90年代末和2000年代初的学生和教授愿意成为LLM训练的一部分。这一事件凸显了随着人类数据对于AI模型变得越来越有价值，必然出现的伦理问题。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货