好用的AI分享
8
谷歌最强AI:Gemini Pro 1.5
好用的AI分享系列主要为大家介绍大语言模型:如ChatGPT/文心一言等一系列生成式人工智能相关知识,帮助大家深入了解AI目前的最新进展与强大能力,真正做到让AI提效。欢迎大家订阅本公众号,持续进行学习。
大家知道吗?AI领域在ChatGPT出现之前,都是谷歌最强。在ChatGPT爆火之后,谷歌才加紧研究,推出了一系列大模型,不输GPT。
谷歌的多模态模型家族Gemini,在图像、音频、视频、文本理解方面展现出卓越的能力。Gemini系列包括Ultra、Pro和Nano,适用于从复杂推理任务到受内存约束的设备端应用等广泛场景。
Gemini Ultra能力很强,是第一个在MMLU(大规模多任务语言理解)测试中达到人类专家水平的模型。
目前使用Gemini Ultra可以在Gemini官网通过对话的方式使用:让他描述一张图片,它给出来的描述非常详细:
Gemini最显著的特点是其超长的上下文窗口,Gemini 的Pro系列,也就是中杯系列中,上下文窗口高达100万个tokens,远超 GPT-4(12.8万tokens)和Claude(20万tokens)等其他大语言模型。这意味着 Gemini 1.5 Pro 能够一次性处理大量信息,包括1小时视频、11小时音频、超过3万行代码库或70万字文本。
在上面这个例子中,我们上传10分钟视频,包含了158k的token,Gemini可以给我们总结这段视频的主要内容,而GPT-4最长上下文是128k,不如Gemini。
在视频模态的测试中,研究人员让Gemini在长达44分钟的默片中找到特定分钟发生的剧情,Gemini 1.5 Pro成功完成了任务:
还记得大海捞针吗?文字版本是在一长段内容中插入毫不相关的文本让AI去找,Gemini还做了音频和视频版本的:音频版本的大海捞针就是在一段22小时的音频中插入一句不相关的话,比如“the secret keyword is needle”(秘密关键词是针),视频版本就是在3小时视频中插入同样的一句话。
Gemini表现得都非常完美,而GPT-4还不具备这个能力。
得益于 Gemini 1.5 Pro 与 Gmail 的直接集成,该模型在邮件管理任务上展现出独特的优势。它能够提供用户最新邮件的实时信息,帮助撰写回复,并协助用户更有效地进行沟通。相比之下,GPT-3.5 等其他模型在处理邮件任务时,往往需要第三方解决方案的支持。
总而言之,Gemini在多模态处理音频、视频的能力比GPT-4更强,超长上下文处理的能力也更强,感兴趣的同学赶紧用起来吧~
每周持续更新AI系列课程
小U带你进入人工智能世界
我们下节课见啦
领取专属 10元无门槛券
私享最新 技术干货