首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

谷歌Gemini 1.5 Pro:100万个tokens窗口容量,能处理1小时视频

这两天我们被OPEN AI的Sora疯狂刷屏。

确实Sora所带来的效果是非常炸裂的,它能够根据文本描述,生成长达60秒的视频,其中包含精细复杂的场景、生动的角色表情以及复杂的镜头运动。

多位大佬对其表达了极高的评价,比如马斯克:“gg humans”,周鸿祎:“Sora意味着实现通用人工智能可能从10年缩短至1年”。

然而龙年一开年,不只有Sora,谷歌Gemini也迎来一次重大更新,推出了Gemini 1.5!

谷歌和 Alphabet 首席执行官桑达尔·皮查伊表示:Gemini 1.5在许多方面都显示出显着的改进,Gemini 1.5 Pro的性能可与Gemini 1.0 Ultra相媲美,并且使用的计算资源更少。

100万个tokens上下文窗口容量!

谷歌Gemini 1.5在人工智能模型的“上下文窗口”方面取得了重大突破,实现了持续运行多达100万个tokens的容量,这是目前最长的上下文窗口。这一突破使得该模型在长语境理解方面的能力大幅提升,能够显著增加模型可处理的信息量。

上下文窗口由tokens组成,这些是处理信息的构建块。窗口越大,AI模型在给定提示中可接收和处理的信息就越多。这意味着我们可以“喂给”AI更多的信息,每一次与AI交流的过程中,AI可以参考的上下文内容更丰富。

据谷歌介绍,100万个tokens的上下文窗口容量,意味着Gemini 1.5 Pro可以一次处理约1小时的视频、11小时的音频、超过3万行代码或超过70万字的文档。

Gemini 1.0最初支持32,000个tokens,但通过一系列机器学习创新,谷歌将上下文窗口容量增加到了1.5 Pro的100万个tokens。这使得AI模型能够处理更大量的信息,从而提升了其性能和实用性。

Gemini 1.5 Pro带有标准的128,000个tokens的上下文窗口。现在,有限的开发人员和企业客户可以通过AI Studio和Vertex AI在私有预览中试用多达100万个tokens的上下文窗口。

无声电影也能看得懂!

Gemini 1.5 Pro可以处理大量信息并进行高度复杂的推理。它可以无缝地分析、分类和总结数百页的文档,比如402页的阿波罗11号登月记录,它可以推断出记录中的对话和事件细节。

Gemini 1.5 Pro可以跨不同模式进行复杂推理,包括图像和视频。在给定一部长达44分钟的无声电影的情况下,Gemini 1.5 Pro也能准确分析情节,甚至推理出容易被遗漏的小细节,当给出简单的线条图作为参考材料时,它可以识别出该影片中的场景。

在代码理解方面,Gemini 1.5 Pro也展示了卓越的推理能力。它可以在10万行代码的提示下找到特定的代码段,并给出修改建议和解释。

最后,Gemini 1.5 Pro展示了强大的“情境学习”能力。它可以仅从一个长提示中学习新技能,而无需额外微调。在机器翻译一个使用者不足200人的语言的测试中,Gemini 1.5 Pro的翻译水平可与人类学习者媲美。

仅靠上下文就掌握一门语言

Gemini 1.5 Pro另一项独门绝技是超强“上下文学习”能力,它能够从一段长提示中提取信息并学习新技能,而无需进行额外的微调。

为了验证这一能力,Google选择了一个挑战性的语言——Kalamang语进行MTOB测试。Kalamang语是新几内亚西部的一种语言,使用者不到200人,网络上几乎没有相关的信息。因此,模型只能依赖于提供的上下文数据来进行翻译,而不是依赖于训练权重中的知识。

在测试中,工作人员向Gemini 1.5 Pro提供了约25万个tokens的信息,包括500页的参考语法、2000条双语词条和400个额外的平行句子,作为输入上下文。然后,要求模型从中学习并完成Kalamang语和英语的互译。

测试结果显示,Gemini 1.5 Pro在整本书的翻译得分接近人类学习者,而且在半本书的表现中超过了GPT-4 Turbo和Claude 2.1。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OpCYwao6rb7Qj5dBfYYrIqVA0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券