首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

【好用的AI分享】丨第八讲:谷歌最强AI:Gemini Pro 1.5

好用的AI分享

8

谷歌最强AI:Gemini Pro 1.5

好用的AI分享系列主要为大家介绍大语言模型:如ChatGPT/文心一言等一系列生成式人工智能相关知识,帮助大家深入了解AI目前的最新进展与强大能力,真正做到让AI提效。欢迎大家订阅本公众号,持续进行学习。

大家知道吗?AI领域在ChatGPT出现之前,都是谷歌最强。在ChatGPT爆火之后,谷歌才加紧研究,推出了一系列大模型,不输GPT。

谷歌的多模态模型家族Gemini,在图像、音频、视频、文本理解方面展现出卓越的能力。Gemini系列包括Ultra、Pro和Nano,适用于从复杂推理任务到受内存约束的设备端应用等广泛场景。

Gemini Ultra能力很强,是第一个在MMLU(大规模多任务语言理解)测试中达到人类专家水平的模型。

目前使用Gemini Ultra可以在Gemini官网通过对话的方式使用:让他描述一张图片,它给出来的描述非常详细:

Gemini最显著的特点是其超长的上下文窗口,Gemini 的Pro系列,也就是中杯系列中,上下文窗口高达100万个tokens,远超 GPT-4(12.8万tokens)和Claude(20万tokens)等其他大语言模型。这意味着 Gemini 1.5 Pro 能够一次性处理大量信息,包括1小时视频、11小时音频、超过3万行代码库或70万字文本。

在上面这个例子中,我们上传10分钟视频,包含了158k的token,Gemini可以给我们总结这段视频的主要内容,而GPT-4最长上下文是128k,不如Gemini。

在视频模态的测试中,研究人员让Gemini在长达44分钟的默片中找到特定分钟发生的剧情,Gemini 1.5 Pro成功完成了任务:

还记得大海捞针吗?文字版本是在一长段内容中插入毫不相关的文本让AI去找,Gemini还做了音频和视频版本的:音频版本的大海捞针就是在一段22小时的音频中插入一句不相关的话,比如“the secret keyword is needle”(秘密关键词是针),视频版本就是在3小时视频中插入同样的一句话。

Gemini表现得都非常完美,而GPT-4还不具备这个能力。

得益于 Gemini 1.5 Pro 与 Gmail 的直接集成,该模型在邮件管理任务上展现出独特的优势。它能够提供用户最新邮件的实时信息,帮助撰写回复,并协助用户更有效地进行沟通。相比之下,GPT-3.5 等其他模型在处理邮件任务时,往往需要第三方解决方案的支持。

总而言之,Gemini在多模态处理音频、视频的能力比GPT-4更强,超长上下文处理的能力也更强,感兴趣的同学赶紧用起来吧~

每周持续更新AI系列课程

小U带你进入人工智能世界

我们下节课见啦

  • 发表于:
  • 原文链接https://page.om.qq.com/page/Ol3o-ZETmkxqylwZYluIKXZQ0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券