首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

常见的大模型评测数据集

数据集 英文测试 MMLU https://paperswithcode.com/dataset/mmlu MMLU(大规模多任务语言理解)是一种新的基准测试,旨在通过仅在零样本和少样本设置中评估模型来衡量预训练期间获得的知识...创建该数据集是为了支持对需要多步骤推理的基本数学问题进行问答的任务。 GSM8K 是一个高质量的英文小学数学问题测试集,包含 7.5K 训练数据和 1K 测试数据。...数据集分为挑战集和简单集,其中前者仅包含由基于检索的算法和单词共现算法错误回答的问题。我们还包括一个包含超过 1400 万个与该任务相关的科学句子的语料库,以及该数据集的三个神经基线模型的实现。...CMMLU 是一个包含了 67 个主题的中文评测数据集,涉及自然科学、社会科学、工程、人文、以及常识等,有效地评估了大模型在中文知识储备和语言理解上的能力。...GAOKAO-Bench https://github.com/OpenLMLab/GAOKAO-Bench Gaokao 是一个中国高考题目的数据集,旨在直观且高效地测评大模型语言理解能力、逻辑推理能力的测评框架

7.2K10

分享一种快速下载SRA数据集的方法

从头分析原始测序数据,探寻新的基因。 SRA数据库为科研人员提供了一个强大的数据资源,有助于推动生命科学领域的研究进展。...今天,我们想给大家分享的是另一个自认为比较便捷,适用且快速的SRA 数据集下载方法,关键还是免费使用的(其实,就是通过链接直接使用idm软件下载的一种方式)!喜欢的家人们记得收藏哈!...因为操作简单,所以我们直接步入正题: Step 1:打开NCBI,在SRA下输入要下载的数据集PRJNA778726(示例数据集) Step 2: 点击“Send to”,选择File → RunInfo...用户可以通过编写脚本来检索特定的SRA数据集,例如通过Run Accession Numbers搜索。...SRA Explorer:SRA Explorer是一个网页端应用,旨在使SRA数据更易于检索和下载。它支持用户通过图形界面搜索和选择数据集,并且可以生成用于下载的命令行脚本。

1.5K20
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    大语言模型--开源数据集

    Huggingface排行榜默认数据集 Huggingface开源大模型排行榜: Open LLM Leaderboard - a Hugging Face Space by HuggingFaceH4...本文主要介绍Huggingface开源大模型排行榜上默认使用的数据集以及如何搭建自己的大模型评估工具 搭建大模型评估工具 1.下载数据集到本地 from datasets import load_dataset...一个由7787个真正的小学水平的科学多项选择题组成的新数据集,arc_easy 只包含基于检索的算法和单词共现算法错误回答的问题。...是一个包含8.5k的小学数学题,主要用于测试大模型的数学和逻辑推理能力。...:openai/openai_humaneval · Datasets at Hugging Face 语言:English 介绍:OpenAI发布的测试大模型编程能力的数据集,编程问题是用Python

    94120

    GEE数据集——全球ERA5-HEAT(人类热舒适度)逐日数据集

    简介 ERA5-HEAT数据集 该数据集提供了一组代表室外条件下人类热应力和不适指数的完整历史重建。该数据集也被称为ERA5-HEAT(人类热舒适度),代表了当前生物气候学数据记录制作的最先进水平。...该数据集围绕两个主要变量展开:1)平均辐射温度(MRT);2)通用热气候指数(UTCI)。这些变量描述了人体如何体验大气条件,特别是气温、湿度、通风和辐射。...该数据集是利用欧洲中期预报中心(ECMWF)的ERA5 再分析计算得出的。ERA5将模型数据与世界各地的观测数据结合在一起,对地球气候及其近几十年的演变提供了全球范围内完整一致的描述。...ERA5被认为是观测到的大气条件的良好代表。有关该产品的更多外部信息,请点击此处。...数据集说明 空间信息 Attribute Details Spatial extent Global Spatial resolution 27.75km (.25 deg) Temporal resolution

    33610

    【SLAM数据集】开源 | 一种新的激光雷达数据集,传感器和环境的种类最多!

    此外,近年来出现了新的扫描方式和新型传感器技术。公共数据集可以对算法进行基准测试,并为前沿技术设定了标准。然而,现有的数据集并不能代表技术前景,只有少量的激光雷达可用。...这从本质上限制了通用算法在不断发展的环境中的发展和比较。本文提出了一种新型的多模态激光雷达数据集,其中传感器展示了不同的扫描方式(旋转和固态)、传感技术和激光雷达摄像机。...数据集的重点是低漂移里程计,在室内和室外环境中,通过动作捕捉(MOCAP)系统可获得亚毫米精度的真值数据。为了进行远距离比较,我们还包括在室内和室外较大空间记录的数据。...数据集包含来自旋转激光雷达和固态激光雷达的点云数据。此外,它还提供来自高分辨率旋转激光雷达的距离图像,来自激光雷达相机的RGB和深度图像,以及来自内置IMU的惯性数据。...据我们所知,这是具有最多种传感器和环境的激光雷达数据集,其中可以获得真值数据。

    1K10

    机器学习的十大图像分类数据集

    为了帮助构建对象识别模型,场景识别模型等,编制了最佳图像分类数据集的列表。这些数据集的范围和大小各不相同,可以适应各种用例。此外数据集已分为以下几类:医学成像,农业和场景识别等。...医学图像分类数据集 1. 递归蜂窝图像分类 –此数据来自递归2019挑战。竞赛的目标是利用生物显微镜数据开发可识别复制品的模型。关于比赛的全部信息可以在这里找到。...CoastSat图像分类数据集 –用于开放源代码海岸线测绘工具,该数据集包含从卫星获取的航空图像。数据集还包括与标签有关的元数据。...室内场景图像 –来自麻省理工学院的该数据集包含15,000多个室内位置图像。该数据集最初是为解决室内场景识别问题而构建的。所有图像均为JPEG格式,已分为67类。每个类别的图像数量有所不同。...TensorFlow Sun397图像分类数据集 –来自Tensorflow的另一个数据集,该数据集包含场景理解(SUN)基准中使用的108,000多幅图像。此外图像已分为397类。

    8.9K11

    盘点 | 2017 最“热”门的十大数据技术

    根据 Forrester 公司发布的指数,这里列举出当今十大热门大数据技术。 1....流式分析 软件可以对多个不同的实况数据源和以任何数据格式进行数据清洗、聚合和分析。 5....分布式存储系统 指存储节点大于一个、数据保存多副本以及高性能的计算网络。 7. 数据可视化 指的是从各种数据源传输数据(包括 Hadoop 上的海量数据以及实时和接近实时的分布式数据)。 8....数据预处理 是指对大量数据源进行清洗、裁剪,清理并共享多样化数据来加快数据分析。 10. 数据校验 对分布式存储系统和数据库上的海量、高频率数据集进行数据校验,去除无效数据。...Forrester 的研究数据表明以上 10 项技术都预计将获得巨大的发展。此外,每项技术基于起发展水平都处于从产生到消亡中的一个特定发展阶段。

    69160

    拥有免费数据集的十大优秀网站

    如果是一位尚未尝试过数据科学项目的初学者,那么从“没有经验”的起点到称为“专家”的非常理想的目的地的可能过渡只不过是数据集。 使用具有各种主题的免费数据集的所有这些网站具有许多优点。...每个人都知道Reddit是一个受欢迎的社交新闻网站,但也有一节致力于分享有趣的数据集。这种讨论板被称为subreddits,或/ r /数据集 - 一个分享,查找和讨论数据集的地方。...这些数据集包括各种各样的数据集,从流行的数据集,如Iris和泰坦尼克号的生存,到最近的贡献,如空气质量和GPS轨迹。存储库包含350多个数据集,其中包含域名,问题目的(分类/回归)等标签。...因此,这是数据聚合器,主要侧重于从科学论文中共享数据集。它由两部分组成:用户可以搜索数据集的站点,以及使共享数据可扩展且快速的BitTorrent主干。...它具有各种不寻常的(通常是大的)数据集,尽管在不阅读原始论文和/或在相关科学领域拥有一些专业知识的情况下获取特定数据集的上下文有时会很棘手。 数据集的重要性 ? 成为数据科学专家还有很长的路要走。

    22.3K51

    不要再对类别变量进行独热编码了

    独热编码,也称为dummy变量,是一种将分类变量转换为若干二进制列的方法,其中1表示属于该类别的行。 ? 很明显,从机器学习的角度来看,它不是分类变量编码的好选择。...它不仅给数据集增加了大量的维数,而且确实没有多少信息 —— 一大堆零中偶尔点缀着几个1。这导致了一个异常稀疏的现象,这使得它很难进行最优化。...这意味着一个变量可以很容易地使用其他变量进行预测,从而导致并行性和多重共线性的问题。 ? 最优数据集由信息具有独立价值的特征组成,而独热编码创建了一个完全不同的环境。...诚然,如果只有3个或者甚至4个类别,独热编码可能不是一个糟糕的选择,但是它可能值得探索其他选择,这取决于数据集的相对大小。 目标编码是表示分类列的一种非常有效的方法,它只占用一个特征空间。...Bayesian Target Encoding是一种使用目标作为编码方法的数学方法。

    2.3K20

    平衡全局与局部:一种新型数据集蒸馏方法 !

    在本文中,作者提出了一种新的数据集蒸馏方法,该方法在将大型数据集的信息提炼到生成模型时,考虑了全局结构和局部细节的平衡。数据集蒸馏已被提出用于减少训练模型时所需数据集的大小。...基于以上理解,作者提出了一种将原始图像数据集提炼到生成模型的新方法。 作者的方法涉及使用条件生成对抗网络生成提炼后的数据集。...然而,依赖大型数据集带来挑战,因为它常常导致相当大的训练开支。 这个问题可以通过两种主要方法解决:数据选择和数据集蒸馏。数据选择涉及从原始大型数据集中选择具有代表性的数据子集。...另一方面,数据集蒸馏提供了一种更有效的解决方案。它不是简单地选择现有数据,而是合成一个新的且小得多的数据集,其中包含原始数据集的重要信息。这种方法可以在不实质性损害性能的情况下显著减少数据集大小。...在小架构上蒸馏的结果很难应用于更复杂的架构,这将导致模型泛化性能不佳。 为了解决上述问题,引入了一种新的数据集蒸馏方法,即将数据集蒸馏到生成模型(DiM)。

    21710

    SWNE,单细胞的一种高维数据集可视化方法

    scRNA-seq最常见的可视化方法是tSNE,tSNE本身可以精确的捕获数据集的局部结构,但是经常会扭曲数据集的全局结构,比如簇与簇之间的距离,本研究开发了一种可视化及解释scRNA-seq数据集的方法...,虽然一些更新的方法UMAP解决了在数据中捕获全局结构的问题,但是,目前为止尚没有一种方法可以直接将生物信息嵌入到可视化的结果中。...## 对于大型数据集,这个函数可能会很慢,因为它迭代不同的k值,所以一个简单的“hack”就是让k等于重要主成分(PC)的数量。...我们可以使用独立成分分析(ICA)、非负SVD (nnsvd)或完全随机的初始化来初始化NMF。 ## ICA被推荐用于大多数数据集。RunNMF的输出是基因load(W)和NMF嵌入(H)的列表。...## 我们为可复制的簇颜色设置了一种种子,以便每个地块将使用相同的颜色来标记簇。

    1.1K61

    深度学习中数据集很小是一种什么样的体验

    前言 今天提一个比较轻松的话题,简单探讨数据集大小对深度学习训练的影响。...提出这个说法的作者利用两种方法进行了测试,测试的数据集是MNIST,测试计算机是否能正确识别0和1,采用的方法分别是: 5层的深度神经网络,活函数是双曲正切函数; 另一种方法使用的是李加索变量选择方法,...其实所说的过拟合常常是因为我们设计的神经网络层数过深,但是数据没有那么多,神经网络就会充分“榨干”那些训练数据,过度吸收那些训练集的信息,导致在测试的时候没有那么准确,说以如果数据集过少,可以通过减少层数的方法来减轻错误...但是如果数据包含的信息很丰富,但是数据量很少,这时候光调整层数就不够了,我们需要一些数据增强的技术扩充数据集,从而“喂饱”神经网络,不至于让神经网络出现异常。...当然,数据集扩充是针对含信息量很丰富的信息来实现的,如果信息都像我们之前使用的一维信号一样,一般就没有必要扩充了。

    6.2K40

    盘点当下大热的 7 大 Github 机器学习『创新』项目

    大家好,又见面了,我是你们的朋友全栈君。 本文将会分享近期发布的七大GitHub机器学习项目。这些项目广泛覆盖了机器学习的各个领域,包括自然语言处理(NLP)、计算机视觉、大数据等。...计算机视觉是一种十分先进的技术,用于操纵和处理图像的。想要成为计算机视觉专家,图像的目标检测通常被认为是必经之路。 那么视频呢?...这一项目对tfpyth的使用方法给出了结构严谨的示例,这无疑是对TensorFlow与PyTorch争论的一种重新审视。...这一机器学习项目将医学数据集与不同的模态、目标器官和病理结合起来,以构建规模较大的数据集。...MedicalNet的开发人员已经发布了四个预训练模型,这些模型基于23个数据集。

    77830

    【大咖说】大数据是一种全新的材料,不是另外一种高科技

    大数据是一种全新的材料,它不是另外一种高科技,只要找到了合适的方式使用它,它在哪里都可以使用。如果把大数据当成是一种材料的话,你会发现,大数据带来的问题是全方位的。...它不是哪一种具体的技术,让你能看到它的功能,让你有办法针对性地管理。所以一定要把它当做一种新材料,从本质上,从体系上来思考大数据。大数据时代,最重要的是关联。 如何应用大数据?...过去的解决只是一种假设的解决,因为没有第三方数据,只是基于假定的第三方数据做决策。所以大数据的起点就是关联第三方数据。...越来越多小公司入场,大数据生态进入临界点 一个生态的形成意味着非常多的小公司能生存下来。中国(互联网领域)只有三大巨头肯定不叫生态。...当一家公司已经大到分公司之间的数据传输也会让人恼火的时候,就不能把一家公司当一家公司看。 大公司在使用数据时应该有限制 大公司在使用数据时应该有一个限制,哪怕是公司内部的自我交换,也应该是有一个限制。

    1.2K120

    盘点当下大热的 7 大 Github 机器学习『创新』项目

    本文将会分享近期发布的七大GitHub机器学习项目。这些项目广泛覆盖了机器学习的各个领域,包括自然语言处理(NLP)、计算机视觉、大数据等。 最顶尖的Github机器学习项目 1....计算机视觉是一种十分先进的技术,用于操纵和处理图像的。想要成为计算机视觉专家,图像的目标检测通常被认为是必经之路。 那么视频呢?...Tfpyth最大的优势就在于用户不需要重写先前写好的代码。 ? 这一项目对tfpyth的使用方法给出了结构严谨的示例,这无疑是对TensorFlow与PyTorch争论的一种重新审视。...这一机器学习项目将医学数据集与不同的模态、目标器官和病理结合起来,以构建规模较大的数据集。...MedicalNet的开发人员已经发布了四个预训练模型,这些模型基于23个数据集。

    74811

    Nature子刊 | 一种用于急性脑卒中患者的脑电图运动成像数据集

    该数据集包括四种类型的数据:1)运动想象指令,2)原始记录数据,3)去除伪影和其他操作后的预处理数据,以及4)患者特征。这是第一个处理急性中风患者左手和右手运动图像的开放数据集。...BCI是一种新的治疗方法,用于使上肢功能恢复;因此,BCI可以促进中风患者的康复。...这些局限性不仅表明需要提高数据集的准确性,还需要一个数据集,用于中风患者的研究、开发和应用,特别是在上肢功能障碍患者中。因此,脑电图数据集对恢复脑卒中患者上肢功能至关重要。...测试的算法包括一种流行的方法(CSP + LDA)和一种基于FBCSP+SVM20的新方法。第二组算法基于黎曼几何的概念进行分类。...利用该数据集的分类性能也显示出与其他常见算法的一些差异,表明该数据集是可靠的。

    53710
    领券