OpenAI发布Sora视频生成模型
OpenAI突然推出了Sora,一个令人印象深刻的文本到视频的AI模型,能够直接从文本提示和图像中创建逼真而连贯的视频生成,长度可达一分钟。
Sora结合了GPT和DALL-E的特点,以更好地理解物理动力学,并在生成的镜头中保持细节,以获得逼真的输出。
该模型可以从文本提示和静态图像生成长达60秒的视频,并且还可以在现有视频中插入场景。
在潜在的广泛发布之前,Sora目前正在向红队和选择的创作者提供早期反馈。
尽管训练数据尚不明确,但NVIDIA人工智能研究员Jim Fan博士推测该模型是使用虚幻引擎的合成数据开发的,称其为“许多世界的模拟,无论是真实的还是幻想的”。
OpenAI突然在视频领域取得了巨大的突破,使我们更接近几乎无法区分现实的输出。Sora似乎为创造性解锁和恶意行为者带来了新的恐慌能力。无论好坏... AI视频游戏完全改变了。
谷歌推出具有巨大上下文窗口的Gemini 1.5
在推出Gemini Ultra一周后,谷歌刚刚发布了升级的Gemini 1.5模型,具有突破性的100万令牌上下文窗口(在测试中可达到1000万),可处理比以前的AI系统更多的数据。
Gemini 1.5 Pro可以处理70万字的文本、3万行代码、11小时的音频或1小时的视频,实现了突破性的处理能力。
尽管上下文窗口非常大,但升级后的模型仍然保持性能,能够从大量的文本、代码和视频中分析细节。
1.5版本将以128K上下文窗口的形式向公众发布,并随着模型的改进而扩大。
目前,完整的100万令牌版本仅对经过批准的开发者和企业客户开放。
除了扩展的上下文,Gemini 1.5还提供了更高效的性能改进,与顶级的Gemini Ultra模型相当。
谷歌刚刚推出Gemini Advanced,随后迅速推出了另一个重大升级。巨大的上下文窗口解锁了新的能力,例如分析整本书、完整电影、大型代码库等,使Gemini在LLM战争中有了重要的差异化和新的优势。
密歇根大学是否出售学生数据用于AI训练?
密歇根大学在X(前身为Twitter)上面临重大的抨击,原因是该校的第三方供应商在未经学生同意的情况下,向AI公司提供了许可的讲座和论文数据集,用于训练LLM模型。
一位Google DeepMind的工程师发布了一封电子邮件的截图,该邮件提供了超过80小时的学术演讲和829篇未发表的学生论文。
这则广告来自Catalyst Research Alliance,示例数据集包括1999年的讲座,论文和录音的价格高达25,000美元。
然而,密歇根大学的发言人表示,分享的信息是“不准确的”,数据是“自愿贡献的”。
密歇根大学表示数据是自愿提供的,但很难辩称90年代末和2000年代初的学生和教授愿意成为LLM训练的一部分。这一事件凸显了随着人类数据对于AI模型变得越来越有价值,必然出现的伦理问题。
领取专属 10元无门槛券
私享最新 技术干货