前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >OpenLLM大模型排行榜

OpenLLM大模型排行榜

作者头像
山行AI
发布2023-06-14 15:29:40
1.4K0
发布2023-06-14 15:29:40
举报
文章被收录于专栏:山行AI山行AI

前言

大模型排行榜链接地址为:https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard

开放LLM排行榜

随着大量的大型语言模型(LLMs)和聊天机器人每周都在发布,它们常常大肆宣扬自己的性能,要从中筛选出开源社区所取得的真正进步,以及哪个模型是当前的最新技术,这可能会很困难。🤗开放LLM排行榜旨在跟踪、排名和评估发布的LLM和聊天机器人。我们使用 Eleuther AI Language Model Evaluation Harness[1] 中的4个关键基准来评估模型,这是一个统一框架,用于在大量不同的评估任务上测试生成性语言模型。该排行榜的一个主要优点是,只要是在Hub上有权重的🤗Transformers模型,社区中的任何人都可以提交一个模型进行在🤗GPU集群上的自动评估。我们还支持对具有delta权重的非商业许可模型(如LLaMa)进行评估。

评估是针对4个流行的基准进行的:

•AI2 Reasoning Challenge[2](25-shot)- 一套小学科学问题。•HellaSwag[3](10-shot)- 一个测试常识推理的测试,对人类来说很容易(~95%),但对最先进的模型来说却具有挑战性。•MMLU[4](5-shot)- 一个测试文本模型的多任务准确性的测试。测试覆盖57个任务,包括基础数学、美国历史、计算机科学、法律等。•Truthful QA MC[5](0-shot)- 一个测试语言模型在生成问题答案时是否真实的基准。

我们选择这些基准,因为它们在0次shot和少数shot的设置中测试了一系列推理和普遍知识,涵盖了各种领域。

在人工智能领域,"shot"这个词通常是用在"few-shot learning"或者"zero-shot learning"等概念中。这些都是指的是机器学习的模型训练方法。 •"Zero-shot learning",也就是零样本学习,是指的是让模型在没有接触过某种类别的数据的情况下,通过学习其他类别的数据,推理出这个未知类别的数据的特性。这是一种机器学习方法,其目标是让模型能够理解和处理它在训练过程中从未见过的类别。这通常通过在模型训练过程中引入和利用一些形式的辅助信息(例如类别之间的关系)来实现。•"Few-shot learning",也就是少样本学习,是指的是让模型在只接触过少量某种类别的数据的情况下,学习并理解这个类别的数据的特性。 在你提供的这段文章中,"25-shot"、"10-shot"、"5-shot"、"0-shot"就是指的是在这些评估任务中,模型接触的示例数据的数量。例如,"25-shot"就是说模型在进行"AI2 Reasoning Challenge"这个评估任务时,会接触到25个示例数据。

评估的模型列表

Model

Revision

Average ⬆️

ARC (25-shot) ⬆️

HellaSwag (10-shot) ⬆️

MMLU (5-shot) ⬆️

TruthQA (0-shot) ⬆️

llama-65b[6]

main

58.3

57.8

84.2

48.8

42.3

llama-30b[7]

main

56.9

57.1

82.6

45.7

42.3

stable-vicuna-13b[8]

main

52.4

48.1

76.4

38.8

46.5

llama-13b[9]

main

51.8

50.8

78.9

37.7

39.9

alpaca-13b[10]

main

51.7

51.9

77.6

37.6

39.6

llama-7b[11]

main

47.6

46.6

75.6

34.2

34.1

EleutherAI/gpt-neox-20b[12]

main

45.9

45.2

73.4

33.3

31.7

togethercomputer/RedPajama-INCITE-Base-7B-v0.1[13]

main

45.7

44.4

71.3

34

33.2

togethercomputer/RedPajama-INCITE-Base-3B-v1[14]

main

42.2

40.2

64.7

30.6

33.2

Salesforce/codegen-16B-multi[15]

main

39.2

33.6

51.2

28.9

43.3

facebook/opt-1.3b[16]

main

37.7

29.6

54.6

27.7

38.7

gpt2-medium[17]

main

33.8

27.2

40.2

27

40.7

facebook/opt-350m[18]

main

32.2

23.6

36.7

27.3

41

facebook/opt-125m[19]

main

31.2

23.1

31.5

27.4

42.9

gpt2[20]

main

30.4

21.9

31.6

27.5

40.7

distilgpt2[21]

main

30.2

22.2

27.5

26.8

44.5

Aeala/GPT4-x-AlpacaDente2-30b[22]

main

26.3

56.1

49.1

nomic-ai/gpt4all-j[23]

main

21.7

41.2

45.6

wordcab/llama-natural-instructions-13b[24]

main

21.4

48

37.7

chainyo/alpaca-lora-7b[25]

main

21

45.5

38.7

databricks/dolly-v2-7b[26]

main

19.6

43.7

34.5

chavinlo/gpt4-x-alpaca[27]

main

12.4

49.7

digitous/Alpacino30b[28]

main

11

43.8

stabilityai/stablelm-tuned-alpha-7b[29]

main

10

40.2

Evaluation Queue

除了以上图片中包含的模型外,你也可以提交新模型到评估队列中来进行评估,提交后会自动进行评估。

后续

中文领域也有很多比较优秀的大模型,比如ChatGLM和ChatLLM、和一些基于LLaMA微调的模型,比如基于中文医学知识的LLaMA模型Huatuo-Llama-Med-Chinese,后面会陆续介绍这些模型的应用,请持续关注。

另外,如果对大模型感兴趣,想知道更多开源大模型的信息,还有一个地址可以关注:https://github.com/eugeneyan/open-llms

References

[1] Eleuther AI Language Model Evaluation Harness: https://github.com/EleutherAI/lm-evaluation-harness [2] AI2 Reasoning Challenge: https://arxiv.org/abs/1803.05457 [3] HellaSwag: https://arxiv.org/abs/1905.07830 [4] MMLU: https://arxiv.org/abs/2009.03300 [5] Truthful QA MC: https://arxiv.org/abs/2109.07958 [6] llama-65b: https://ai.facebook.com/blog/large-language-model-llama-meta-ai/ [7] llama-30b: https://ai.facebook.com/blog/large-language-model-llama-meta-ai/ [8] stable-vicuna-13b: https://huggingface.co/CarperAI/stable-vicuna-13b-delta [9] llama-13b: https://ai.facebook.com/blog/large-language-model-llama-meta-ai/ [10] alpaca-13b: https://crfm.stanford.edu/2023/03/13/alpaca.html [11] llama-7b: https://ai.facebook.com/blog/large-language-model-llama-meta-ai/ [12] EleutherAI/gpt-neox-20b: https://huggingface.co/EleutherAI/gpt-neox-20b [13] togethercomputer/RedPajama-INCITE-Base-7B-v0.1: https://huggingface.co/togethercomputer/RedPajama-INCITE-Base-7B-v0.1 [14] togethercomputer/RedPajama-INCITE-Base-3B-v1: https://huggingface.co/togethercomputer/RedPajama-INCITE-Base-3B-v1 [15] Salesforce/codegen-16B-multi: https://huggingface.co/Salesforce/codegen-16B-multi [16] facebook/opt-1.3b: https://huggingface.co/facebook/opt-1.3b [17] gpt2-medium: https://huggingface.co/gpt2-medium [18] facebook/opt-350m: https://huggingface.co/facebook/opt-350m [19] facebook/opt-125m: https://huggingface.co/facebook/opt-125m [20] gpt2: https://huggingface.co/gpt2 [21] distilgpt2: https://huggingface.co/distilgpt2 [22] Aeala/GPT4-x-AlpacaDente2-30b: https://huggingface.co/Aeala/GPT4-x-AlpacaDente2-30b [23] nomic-ai/gpt4all-j: https://huggingface.co/nomic-ai/gpt4all-j [24] wordcab/llama-natural-instructions-13b: https://huggingface.co/wordcab/llama-natural-instructions-13b [25] chainyo/alpaca-lora-7b: https://huggingface.co/chainyo/alpaca-lora-7b [26] databricks/dolly-v2-7b: https://huggingface.co/databricks/dolly-v2-7b [27] chavinlo/gpt4-x-alpaca: https://huggingface.co/chavinlo/gpt4-x-alpaca [28] digitous/Alpacino30b: https://huggingface.co/digitous/Alpacino30b [29] stabilityai/stablelm-tuned-alpha-7b: https://huggingface.co/stabilityai/stablelm-tuned-alpha-7b

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2023-05-16,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 山行AI 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 前言
  • 开放LLM排行榜
  • 评估的模型列表
  • Evaluation Queue
  • 后续
    • References
    相关产品与服务
    腾讯云服务器利旧
    云服务器(Cloud Virtual Machine,CVM)提供安全可靠的弹性计算服务。 您可以实时扩展或缩减计算资源,适应变化的业务需求,并只需按实际使用的资源计费。使用 CVM 可以极大降低您的软硬件采购成本,简化 IT 运维工作。
    领券
    问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档