前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >大语言模型--开源数据集

大语言模型--开源数据集

原创
作者头像
aaronwjzhao
修改2024-05-30 14:22:09
5810
修改2024-05-30 14:22:09
举报
文章被收录于专栏:AI工程落地AI工程落地

Huggingface排行榜默认数据集

Huggingface开源大模型排行榜: Open LLM Leaderboard - a Hugging Face Space by HuggingFaceH4

Huggingface数据集:Hugging Face – The AI community building the future.

本文主要介绍Huggingface开源大模型排行榜上默认使用的数据集

ARC

论文地址:[1803.05457] Think you have Solved Question Answering? Try ARC, the AI2 Reasoning Challenge (arxiv.org)

数据集地址:ai2_arc · Datasets at Hugging Face

语言:English

介绍:该数据集也是多选题任务,根据难度划分成 arc_easy 和 arc_challenge,Huggingface 用的 arc_challenge 评测。

一个由7787个真正的小学水平的科学多项选择题组成的新数据集,arc_easy 只包含基于检索的算法和单词共现算法错误回答的问题。

example:

question是问题,choices是选项,answerKey是正确答案。

HellaSwag

论文地址:[1905.07830] HellaSwag: Can a Machine Really Finish Your Sentence? (arxiv.org)

数据集地址:Rowan/hellaswag · Datasets at Hugging Face

语言:English

介绍:用于测试模型的常识推理能力,比如问题是:”一个苹果掉下来,然后“,hellaSwag 提供了及个选项 "果农接住了它", ”牛顿被砸到了“等等,看模型能否从中选中最佳答案。

example:

MMLU

论文地址:Measuring Massive Multitask Language Understanding (arxiv.org)

数据集地址:cais/mmlu · Datasets at Hugging Face

语言:English

介绍:这是一个大规模的多任务测试,由来自不同知识分支的多项选择题组成。该测试涵盖了人文、社会科学、硬科学和其他对一些人来说很重要的领域。这包括57项任务,包括初等数学、美国历史、计算机科学、法律等。为了在这个测试中获得高精度,模型必须具有广泛的世界知识和解决问题的能力。

example:

question是问题,choices是选项,answer是正确答案。

TruthfulQA

论文地址:[2109.07958] TruthfulQA: Measuring How Models Mimic Human Falsehoods (arxiv.org)

数据集地址:truthful_qa · Datasets at Hugging Face

语言:English

介绍:TruthfulQA 测评模型胡说八道的能力,TruthfulQA 分为 generation 和 multiple_choice 两个数据集。Huggingface Leaderboard 采用其中的多选题数据集 (TruthfulQA_mc),评测指标采用 mc2(选项中有多个正确选项)。

example:

category:问题的类别(字符串)。例如“法律”、“健康”等。

question:设计用来造成错误答案的问题。

best_answer:最正确、最真实的答案串。

correct_answers:正确(真实)答案字符串的列表。

correct_answers:不正确(错误)答案字符串的列表。

source:找到问题内容的源字符串。

WinoGrande

论文地址:[1907.10641] WinoGrande: An Adversarial Winograd Schema Challenge at Scale (arxiv.org)

数据集地址:winogrande · Datasets at Hugging Face

语言:English

介绍:WinoGrande是一个新的44k问题集合,为给定句子的空格部分选择合适的答案,答案来自于两个候选项。考验模型的推理能力。根据数据集大小又分为:winogrande_debiased、winogrande_l、winogrande_m、winogrande_s、winogrande_xl。

example:

GSM8K

论文地址:2110.14168.pdf (arxiv.org)

数据集地址:gsm8k · Datasets at Hugging Face

语言:English

介绍:GSM8K是一个包含8.5k的小学数学题,主要用于测试大模型的数学和逻辑推理能力。这些问题的答案需要2-8个步骤,使用加减乘除等基本运算符。包含两个子数据集:main和socratic

example:

question:一道小学数学题的题。

answer:问题的完整解决方案字符串,它包含了通过计算器注释进行推理的多个步骤和最终的数字解决方案。

CNN

论文地址:K16-1028.pdf (aclanthology.org)

数据集地址:cnn_dailymail · Datasets at Hugging Face

语言:English

介绍:包含CNN和Daily Mail记者撰写的30多万篇独特的新闻文章,每条数据由文章(article)和对应的摘要(highlights)构成。包含1.0.0、2.0.0、3.0.0三个子集,每个子集包含train、validation、test三种数据集。考察模型的阅读理解能力和总结能力

example:

article:CNN和Daily Mail上面的文章

highlights:文章对应的摘要和总结

wikitext

论文地址:[1609.07843] Pointer Sentinel Mixture Models (arxiv.org)

数据集地址:wikitext · Datasets at Hugging Face

语言:English

介绍:是一个包含1亿个词汇的英文词库数据,这些词汇是从维基百科的优质文章和标杆文章中提取得到的,每个词汇还同时保留产生该词汇的原始文章。由于它由完整的文章组成,因此该数据集非常适合需要长时依赖(longterm dependency)自然语言建模的场景。包含wikitext-103-raw-v1、wikitext-103-v1、wikitext-2-raw-v1、wikitext-2-v1四个子集,每个子集包含train、validation、test三种数据集。

example:

text:wikitext上面的文章

C4

论文地址:https://arxiv.org/abs/1910.10683

数据集地址:allenai/c4 · Datasets at Hugging Face

语言:English

介绍:从CommonCrawl(免费开放的网络爬虫数据库,17年内爬取了2500多亿页)数据集基础上后处理而来,全称Colossal Clean Crawled Corpus。包含113子集,每个子集包含train、validation两种数据集。

example:

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • Huggingface排行榜默认数据集
    • ARC
      • HellaSwag
        • MMLU
          • TruthfulQA
            • WinoGrande
              • GSM8K
                • CNN
                  • wikitext
                    • C4
                    领券
                    问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档