前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >google开源大模型-gemini

google开源大模型-gemini

作者头像
逍遥壮士
发布2024-01-15 12:07:00
3300
发布2024-01-15 12:07:00
举报
文章被收录于专栏:技术趋势技术趋势

官网:https://deepmind.google/technologies/gemini/#introduction

简介

Gemini是谷歌公司发布的人工智能大模型,能够在从数据中心到移动设备等不同平台上运行。

Gemini包括一套三种不同规模的模型:Gemini Ultra是最大、功能最强大的类别,被定位为GPT-4的竞争对手;Gemini Pro是一款中端型号,能够击败GPT-3.5,可扩展多种任务;Gemini Nano用于特定任务和移动设备。“双子座”Ultra版本是首个在“大规模多任务语言理解”(MMLU)领域超越人类专家的模型。---百度百科

https://baike.baidu.com/item/Gemini/63729669?fr=ge_ala#reference-4

视频介绍:https://www.bilibili.com/video/BV1r94y177Ws/?spm_id_from=888.80997.embed_other.whitelist&vd_source=7d0e42b081e08cb3cefaea55cc1fa8b7

相关能力对比

能力

基准

描述

Gemini

GPT-4V(当GPT-4V不支持此功能时,列出了先前的SOTA模型)

图像

MMLU

Gemini相当于一个大学生,能够给出跨学科的答案

59.4%0-shot通过率@1Gemini Ultra(仅像素*)

56.8%0-shot通过率@1GPT-4V

VQAv2

能够理解自然图像

77.8%0-shotGemini Ultra(仅像素*)

77.2%0-shotGPT-4V

文本VQA

能够识别图片文字

82.3%0-shotGemini Ultra(仅像素*)

78.0%0-shotGPT-4V

文档VQA

能够理解文档的内容

90.9%0-shotGemini Ultra(仅像素*)

88.4%0-shotGPT-4V(仅像素*)

信息图VQA

能够理解信息图表

80.3%0-shotGemini Ultra(仅像素*)

75.1%0-shotGPT-4V(仅像素*)

数学Vista

能够解决可视文本中的数学题

53.0%0-shotGemini Ultra(仅像素*)

49.9%0-shotGPT-4V

视频

VATEX

能给视频加字幕

62.74-shotGemini Ultra(仅像素*)

56.04-shotDeepMind Flamingo

感知测试MCQA

能够进行视频问答

54.7%0-shotGemini Ultra(仅像素*)

46.3%0-shotSeViLA

音频

CoVoST 2(21种语言)

能够进行演讲内容的自动翻译(21种语言)

40.1Gemini Pro

29.1Whisper v2

FLEURS(62种语言)

能够自动识别语言(62种,准确程度取决于音频种词语的读错率) [13]

7.6%Gemini Pro

17.6%Whisper v3

文本能力

能力

标准

介绍

Gemini ultra

GPT-4

总体

MMLU

57个学科(包括数学、物理、历史、法律、医学和伦理学等)

90.0%CoT@32*

86.4%5-shot*(reported)

推理

big-bench hard

多样化的、需要多步骤推理的挑战性任务

83.6%3-shot

83.1%3-shot(API)

DROP

阅读理解力(F1分数)

82.4%Variable shots

80.9%3-shot(reported)

HellaSwag

日常情景下的常识推理

87.8%10-shot*

95.3%10-shot*(reported)

数学

Gsm8K

基础算术操作(包括小学数学题)

94.4%maj1@32

92%5-shot CoT(reported)

MATH

有挑战性的数学题(包括代数、几何、微积分及其他)

53.2%4-shot

52.9%4-shot(API)

代码

HumanEval

Python代码生成

74.4%0-shot(IT)*

67%0-shot*(reported)

Natural2Code

Python代码生成,用新的独立数据库

74.9%0-shot

73.9%0-shot(API)

gemini开发

申请key

打开:https://ai.google.dev/tutorials/rest_quickstart

调用api接口

文本

通过postman请求如下:

参数:

代码语言:javascript
复制
{
    "contents": [
        {
            "parts": [
                {
                    "text": "中国有多少人,历史达几万年,为什么只被算到5000年?,详细介绍一下!"
                }
            ]
        }
    ]
}

结果

代码语言:javascript
复制
{
    "candidates": [
        {
            "content": {
                "parts": [
                    {
                        "text": "1. **中国有多少人:**\n - 目前,中国的人口约为14亿2800万人(2023年7月统计),是世界上人口最多的国家。\n\n\n2. **历史达几万年,为什么只被算到5000年:**\n - 中国的历史确实达几万年,但只被算到5000年有几个原因:\n - **史料有限:**中国早期历史缺乏可靠的书面记录,导致对远古历史的研究陷入困境。\n - **神话与传说:**早期历史记载中包含了大量神话传说,难以与真实历史区分开来。\n - **考古发现:**虽然考古发现提供了丰富的历史信息,但由于尚未发现足够多的具有代表性的遗迹和文物,难以完整地构建出完整的历史脉络。\n\n\n3. **详细介绍一下:**\n - **漫长的农业历史:**中国是世界上最早发展出农业的地区之一,约在公元前12000年左右,长江流域出现了原始农业。\n - **夏朝:**中国第一个王朝,公元前2100年左右建立,由禹王开创。夏朝存在了约500年,但史料有限,对其真实情况知之甚少。\n - **商朝:**公元前1600年左右建立,是中国历史上第一个有文字记载的王朝。商朝延续了约500年,并于公元前1046年被周朝灭亡。\n - **周朝:**公元前1046年建立,是历史上持续时间最长的王朝之一,共历西周、东周两大时期。周朝奠定了中国传统礼仪制度的基础,并对后世产生了深远的影响。\n - **春秋战国时期:**公元前770年至公元前221年,周王室衰微,诸侯争霸,史称春秋战国时期。春秋战国时期涌现了许多思想家和哲学家,百家争鸣,促进了中国文化的繁荣。\n - **秦朝:**公元前221年,秦始皇统一中国,建立了秦朝。秦朝是中国第一个统一的多民族国家,也是历史上第一个大一统王朝。秦朝的建立标志着中国历史进入了一个新的阶段。\n - **汉朝:**公元前206年建立,是继秦朝之后的第二大统一王朝。汉朝分为西汉和东汉两个时期,共历400多年。汉朝是中国历史上最为强盛的王朝之一,也是中国文化的重要发展时期。\n - **三国时期:**公元220年,汉末三国鼎立,史称三国时期。三国时期魏、蜀、吴三国相互争夺,最终以西晋统一三国而告终。\n - **晋朝:**公元265年建立,是三国之后的大一统王朝。晋朝分西晋和东晋两大时期,共历约150年。晋朝时期,中国北方游牧民族势力强大,屡屡入侵,导致西晋灭亡,东晋偏安南方。\n - **南北朝时期:**公元420年至公元589年,中国再次陷入分裂,史称南北朝时期。南北朝时期,北朝和南朝并立,相互争夺。南北朝时期也是中国历史上佛教发展的鼎盛时期。\n - **隋朝:**公元581年,杨坚建立隋朝,结束了南北朝时期的分裂局面。隋朝是中国历史上又一大一统王朝,也是中国历史上最为强盛的王朝之一。隋朝在政治、经济、文化等方面都有很大的发展,为唐朝的盛世打下了基础。\n - **唐朝:**公元618年,唐朝建立,是中国历史上又一大统一王朝,也是中国历史上的鼎盛时期之一。唐朝在政治、经济、军事、文化等方面都有很大的发展,被誉为“盛世”。唐朝与周边国家和地区保持着密切的经济文化交流,是东西方文化交流的中心。\n - **宋朝:**公元960年,赵匡胤建立宋朝,结束了五代十国时期的分裂局面。宋朝是中国历史上又一大统一王朝,也是中国历史上的文化繁荣时期之一。宋朝在经济、文化、科技等方面都有很大的发展,是中国历史上最为富庶的王朝之一。宋朝也是中国历史上最早使用纸币的王朝。\n - **元朝:**公元1271年,忽必烈建立元朝,结束了宋朝的统治。元朝是中国历史上第一个由少数民族建立的大一统王朝。元朝在政治、经济、文化等方面都有很大的发展,但因其暴政和贪污腐败,最终引发了红巾军起义,元朝灭亡。\n - **明朝:**公元1368年,朱元璋建立明朝,结束了元朝的统治。明朝是中国历史上又一大统一王朝,也是中国历史上的最后一个汉族王朝。明朝在政治、经济、文化等方面都有很大的发展,是中国历史上最为繁荣的王朝之一。明朝也是中国历史上最后一次大规模的海上贸易时期。\n - **清朝:**公元1644年,多尔衮建立清朝,结束了明朝的统治。清朝是中国历史上最后一个王朝,也是中国历史上最长的王朝。清朝在政治、经济、文化等方面都有很大的发展,是中国历史上最为富庶的王朝之一。清朝也是中国历史上最后一次大规模的海外扩张时期。"
                    }
                ],
                "role": "model"
            },
            "finishReason": "STOP",
            "index": 0,
            "safetyRatings": [
                {
                    "category": "HARM_CATEGORY_SEXUALLY_EXPLICIT",
                    "probability": "NEGLIGIBLE"
                },
                {
                    "category": "HARM_CATEGORY_HATE_SPEECH",
                    "probability": "NEGLIGIBLE"
                },
                {
                    "category": "HARM_CATEGORY_HARASSMENT",
                    "probability": "NEGLIGIBLE"
                },
                {
                    "category": "HARM_CATEGORY_DANGEROUS_CONTENT",
                    "probability": "NEGLIGIBLE"
                }
            ]
        }
    ],
    "promptFeedback": {
        "safetyRatings": [
            {
                "category": "HARM_CATEGORY_SEXUALLY_EXPLICIT",
                "probability": "NEGLIGIBLE"
            },
            {
                "category": "HARM_CATEGORY_HATE_SPEECH",
                "probability": "NEGLIGIBLE"
            },
            {
                "category": "HARM_CATEGORY_HARASSMENT",
                "probability": "NEGLIGIBLE"
            },
            {
                "category": "HARM_CATEGORY_DANGEROUS_CONTENT",
                "probability": "NEGLIGIBLE"
            }
        ]
    }
}

总结能力演示:

入参:

代码语言:javascript
复制
今天有五票货他的需求是换FBA商品标签+唛头,只是贴多两张商品标签到箱外,FBA数量已经写22个,但是你又让他下增值单,我看客户又写换22个,这个不得是双倍了吗?表示不理解
所以客户单独我,我们到底还能不能做换标服务
S91456147231205061 贴22个,箱内单品20个,另外两张是贴外箱的 记得跟仓库说明

出参:

1. 客户需要在五票货上换FBA商品标签+唛头,并多贴两张商品标签到箱外。\n2. 客户已在FBA数量栏填写22个,但增值单上又写换22个,可能存在重复。\n3. 客户单独对接你,询问关于换标服务的问题。\n4. 客户要求在S91456147231205061这票货上贴22个标签,其中20个贴于箱内单品上,另外两张贴于外箱上,并要求仓库注意此点。

图片

入参:

📎request.json

结果

当然还有很多方式也可以通过代码方式去实现,请自行尝试。

最后

gemini虽然说能力存在造假质疑,但是不妨我们学习,还是有很多能力还没有完全去验证出来,我这个只是基于api去调用,有兴趣的同学可以用python或前端等方式去实现,然后与文心一言、千义通问等对比看效果。随着未来大模型的普及我们的工作肯定有一部分会通过AI来提高效率,所以可以提升了解并实践

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2024-01-15,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 技术趋势 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 简介
  • 相关能力对比
    • 文本能力
    • gemini开发
      • 申请key
        • 调用api接口
          • 文本
          相关产品与服务
          机器翻译
          机器翻译(Tencent Machine Translation,TMT)结合了神经机器翻译和统计机器翻译的优点,从大规模双语语料库自动学习翻译知识,实现从源语言文本到目标语言文本的自动翻译,目前可支持十余种语言的互译。
          领券
          问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档