Huggingface开源大模型排行榜: Open LLM Leaderboard - a Hugging Face Space by HuggingFaceH4
Huggingface数据集:Hugging Face – The AI community building the future.
本文主要介绍Huggingface开源大模型排行榜上默认使用的数据集
数据集地址:ai2_arc · Datasets at Hugging Face
语言:English
介绍:该数据集也是多选题任务,根据难度划分成 arc_easy 和 arc_challenge,Huggingface 用的 arc_challenge 评测。
一个由7787个真正的小学水平的科学多项选择题组成的新数据集,arc_easy 只包含基于检索的算法和单词共现算法错误回答的问题。
example:
question是问题,choices是选项,answerKey是正确答案。
论文地址:[1905.07830] HellaSwag: Can a Machine Really Finish Your Sentence? (arxiv.org)
数据集地址:Rowan/hellaswag · Datasets at Hugging Face
语言:English
介绍:用于测试模型的常识推理能力,比如问题是:”一个苹果掉下来,然后“,hellaSwag 提供了及个选项 "果农接住了它", ”牛顿被砸到了“等等,看模型能否从中选中最佳答案。
example:
论文地址:Measuring Massive Multitask Language Understanding (arxiv.org)
数据集地址:cais/mmlu · Datasets at Hugging Face
语言:English
介绍:这是一个大规模的多任务测试,由来自不同知识分支的多项选择题组成。该测试涵盖了人文、社会科学、硬科学和其他对一些人来说很重要的领域。这包括57项任务,包括初等数学、美国历史、计算机科学、法律等。为了在这个测试中获得高精度,模型必须具有广泛的世界知识和解决问题的能力。
example:
question是问题,choices是选项,answer是正确答案。
论文地址:[2109.07958] TruthfulQA: Measuring How Models Mimic Human Falsehoods (arxiv.org)
数据集地址:truthful_qa · Datasets at Hugging Face
语言:English
介绍:TruthfulQA 测评模型胡说八道的能力,TruthfulQA 分为 generation 和 multiple_choice 两个数据集。Huggingface Leaderboard 采用其中的多选题数据集 (TruthfulQA_mc),评测指标采用 mc2(选项中有多个正确选项)。
example:
category:问题的类别(字符串)。例如“法律”、“健康”等。
question:设计用来造成错误答案的问题。
best_answer:最正确、最真实的答案串。
correct_answers:正确(真实)答案字符串的列表。
correct_answers:不正确(错误)答案字符串的列表。
source:找到问题内容的源字符串。
论文地址:[1907.10641] WinoGrande: An Adversarial Winograd Schema Challenge at Scale (arxiv.org)
数据集地址:winogrande · Datasets at Hugging Face
语言:English
介绍:WinoGrande是一个新的44k问题集合,为给定句子的空格部分选择合适的答案,答案来自于两个候选项。考验模型的推理能力。根据数据集大小又分为:winogrande_debiased、winogrande_l、winogrande_m、winogrande_s、winogrande_xl。
example:
论文地址:2110.14168.pdf (arxiv.org)
数据集地址:gsm8k · Datasets at Hugging Face
语言:English
介绍:GSM8K是一个包含8.5k的小学数学题,主要用于测试大模型的数学和逻辑推理能力。这些问题的答案需要2-8个步骤,使用加减乘除等基本运算符。包含两个子数据集:main和socratic
example:
question:一道小学数学题的题。
answer:问题的完整解决方案字符串,它包含了通过计算器注释进行推理的多个步骤和最终的数字解决方案。
论文地址:K16-1028.pdf (aclanthology.org)
数据集地址:cnn_dailymail · Datasets at Hugging Face
语言:English
介绍:包含CNN和Daily Mail记者撰写的30多万篇独特的新闻文章,每条数据由文章(article)和对应的摘要(highlights)构成。包含1.0.0、2.0.0、3.0.0三个子集,每个子集包含train、validation、test三种数据集。考察模型的阅读理解能力和总结能力
example:
article:CNN和Daily Mail上面的文章
highlights:文章对应的摘要和总结
论文地址:[1609.07843] Pointer Sentinel Mixture Models (arxiv.org)
数据集地址:wikitext · Datasets at Hugging Face
语言:English
介绍:是一个包含1亿个词汇的英文词库数据,这些词汇是从维基百科的优质文章和标杆文章中提取得到的,每个词汇还同时保留产生该词汇的原始文章。由于它由完整的文章组成,因此该数据集非常适合需要长时依赖(longterm dependency)自然语言建模的场景。包含wikitext-103-raw-v1、wikitext-103-v1、wikitext-2-raw-v1、wikitext-2-v1四个子集,每个子集包含train、validation、test三种数据集。
example:
text:wikitext上面的文章
论文地址:https://arxiv.org/abs/1910.10683
数据集地址:allenai/c4 · Datasets at Hugging Face
语言:English
介绍:从CommonCrawl(免费开放的网络爬虫数据库,17年内爬取了2500多亿页)数据集基础上后处理而来,全称Colossal Clean Crawled Corpus。包含113子集,每个子集包含train、validation两种数据集。
example:
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。