92秒 < 75秒？E-EVAL揭露一众大模型不会做小学题目！

zenRRan

发布于 2024-02-22 13:37:57

2350

发布于 2024-02-22 13:37:57

本项目由中国科学院深圳先进技术研究院、中国科学技术大学、南方科技大学、联合信息共同完成。官网：https://eevalbenchmark.com Github：https://github.com/AI-EDU-LAB/E-EVAL 论文：https://arxiv.org/abs/2401.15927

随着大型语言模型（LLM）的快速发展，LLM和教育领域的结合变得越来越切。但是，目前还没有一个专门为中国K-12教育领域设计的LLM评估基准。为了准确评估各种LLM在中国K-12教育领域的表现，我们推出了E-EVAL。E-EVAL包括4351道选择题，涵盖了小学、初中和高中阶段，如图 1 所示，涵盖了23个学科，包括小学语文、数学、英语、科学、思想品德，以及初中和高中阶段的各种学科。我们进一步将问题分为两类：文科和理科，理科包括数学、物理、化学等，文科包括语文、英语、历史等。通常来说，理科的难度要高于文科。

我们对E-EVAL上的多个开源和商业模型进行了评估，结果显示，国产中文大模型模型在E-EVAL上的表现优于以英文为主的模型，甚至有几个模型超过了GPT 4.0。然而，对于数学等复杂科目的表现几乎所有的模型都不尽如人意。此外，我们观察到，几乎所有先进的中文模型在小学教育阶段上的表现要低于初中教育阶段。这些结果凸显了改进LLMs在中国K-12教育领域的必要性和E-EVAL作为一个重要评估套件的潜在价值。

数据集构建

为了全面评估大型语言模型在中国K-12教育领域中的表现，我们精心构建了数据集。首先，我们确保了数据集覆盖了小学、初中和高中等各个教育阶段的关键学科，以满足不同年龄段学生的教育需求。并把这些学科分成文科和理科，来更准确地反映每个学科的特点和性质。

为了获取高质量的数据，我们主要采用了来自网络上的作业、练习题和模拟考试作为数据来源（主要来自中国组卷网和学科网）。这些作业和练习题通常由学校、教育机构或教师提供，目的是帮助学生巩固知识。与国家级考试（如高考）不同，这些地方性作业和练习题并没有被广泛传播，因此具有更高的数据原创性和可信度。

针对不同学科的数据格式，我们采用了自动脚本和手动解析的方式进行处理，以确保数据的完整性和准确性。对于文科学科（如语文和英语），我们使用脚本自动解析PDF和Word文档以获取结构化数据。而对于涉及复杂公式的理科学科，则需要进行手动解析，将公式转换为标准的LaTeX格式。大多数收集到的问题都遵循一个问题四个选项的格式，对于选项少于四个的问题，我们会将其丢弃。对于选项多于四个的问题，我们会删除一个错误的选项。此外，我们对每个学科都选择了5个代表性问题，并附有解析，以支持few-shot和 Chain-of-Thought评估。

最后，我们进行了三轮手动检查：第一轮确保没有数据重复，第二轮验证公式的正确性和完整性，第三轮确认答案的准确性。在检查完成后，我们还会调整选项的顺序，以实现答案在A、B、C和D选项之间的平衡分布，从而尽量减少模型对选项偏好的影响。我们收集了总共4351道问题，分为开发集、验证集和测试集，覆盖了23个学科。

实验设置

我们采用三种方式测试模型， zero-shot, few-shot-answer-only, few-shot-chain-of-thought (few-shot-cot)

E-EVAL的实验设计旨在评估LLMs在E-EVAL上的性能。我们测试了开源和专有的先进LLMs。这些模型被要求从包含四个选项（ABCD）的问题集中选择正确的选项，并使用正则表达式提取模型选择的答案。我们采用了三种评估方法 zero-shot, few-shot-answer-only, few-shot-chain-of-thought (few-shot-cot)。

实验结果

各种模型的测试结果如下表所示，我们报告了不同类别下三种提示的平均准确率。在一众大模型中，阿里巴巴的Qwen-72B-Chat模型取得了最高的准确率，平均达到了89.05分，这归功于其庞大的参数规模和高质量的中文语料库。百度的ERNIE-Bot 4.0紧随其后到达86.71分。Yi-34B-Chat则是排名第三成绩为81.41分。值得注意的是，GPT 4.0和ChatGPT的表现不佳，分别在准确率中排名第5和第11。GPT的表现不佳可能归因于训练语料库中中文语料占比较低。在参数少于10B的模型中，Yi-6B-Chat表现最佳，排名第6，接近于GPT 4.0的准确率，但仍落后于Yi-34B-Chat。这表明具有更大参数规模的模型表现出了更强的知识和推理能力，与预期相符。Qwen-7B-Chat、Baichuan2-13B-Chat、ChatGLM3-6B和Baichaun2-7B-Chat紧随其后，在较小的模型中表现优于ChatGPT，这是由于它们丰富和高质量的中文语料库，尽管它们体积较小。Chinese-LLaMA表现不佳，主要归因于中文训练数据的不足。尽管EduChat主要在教育语料库上训练，但在评估中表现不佳，可能是因为它侧重于加强心理和教育理论。

总的来说，在这次评估中，那些在各种中文语料库上训练过的以中文为主导的模型表现出色。在同一系列中，大模型的性能优于小模型。此外，所有模型在文科学科中的表现要比理科学科中的表现好得多。这与我们的预期一致，因为文本理解是LLMs的强项，而逻辑推理一直是LLMs的弱项。

实验分析

问题越简单，模型表现越好吗？

进一步观察不同教育水平的模型表现，发现尽管问题的难度从小学逐渐增加到高中，但排名前列的模型通常在初中水平的表现优于小学水平。这一现象非常反直觉，因为从人类认知的角度来看，小学问题远比初中问题简单。如图 2所示，一个非常简单的小学数学问题被E-EVAL排行榜前三名的模型都回答错误。问题是“四个学生比赛跑步，丁丁用了106秒，强强用了1分15秒，明明用了92秒，奇奇用了1分钟50秒，最快的是( )。” 正确答案是B：强强，但所有三个模型都预测了C：明明。排名前三的LLMs都认为92秒比75秒更快。Ernie-Bot 4.0模型出人意料地生成了如此令人难以置信的结果，如92 < 106 < 110 < 75。这一结果似乎表明LLMs不擅长比较大小，然而我们发现LLMs能够解决类似复杂的高中数学问题。如图所示的示例中，LLMs能够准确地确定

a=\log _{0.3} 0.4, \quad b=\log _{34}, \quad c=4^{1 / 3}

之间的大小关系为

\log _{0.3} 0.4<\log _{34}<4^{1 / 3}

我们推测，这些国产大模型的预训练数据可能仅使用了中学、高中和大学水平的知识，忽略了非常简单的小学水平的知识。开发人员可能认为小学水平太简单，一旦掌握了更复杂的知识，简单的知识就会自动掌握。因此，模型在训练时会有偏向于解决更高阶段的主题，并可能在训练数据中出现较少的简单知识上表现不佳。

Few-shot提示是否有帮助？

大多数模型在5-shot条件下的准确性略高于zero-shot，这是符合预期的。然而，排名前两名的模型Qwen-72B-Chat和ERNIE-Bot 4.0的表现不增反降，这种性能下降的现象也被其他研究所注意到，如 CMMLU，我们认为它们可以进行zero-shot推理而无需依赖Few-shot示例。

文科学科的改善尤为显著，尤其是在语文学科中。我们推测这种现象主要有两个原因：样本的质量和先验知识的丰富性。文科问题主要需要语言理解和知识记忆，样本之间高度相似，大多是有用的问题。相反，理科问题多样性大，通常涉及公式和计算，因此很难确保五个样本中含有足够数量的有用样本。此外，在预训练阶段，模型接触到大量的文本数据，而文科问题在形式上更类似于模型在这个阶段处理的任务。因此，模型具有更多与文科相关的先验知识，少量文科样本可以及时激活这些相关知识。

Chain-of-Thought提示是否有帮助？

与5-shot-ao相比，几乎所有模型在5-shot-cot上都表现出明显的下降。这一观察结果与C-EVAL的发现一致，即应用CoT时模型性能下降。我们认为E-EVAL中的许多学科，尤其是文科学科，不需要复杂的推理，额外的推理步骤可能会降低性能。进一步观察可见，虽然平均性能下降了，但文科学科和理科学科之间出现了分歧，文科学科表现下降，而理科学科，特别是高中和初中数学，准确率出现上升。这是因为科学问题通常有固定的原则和逻辑推导过程，因此CoT提示可以有效地指导模型进行结构化推理。CoT可以帮助模型逐步构建答案，这对于科学问题是有利的。相反，文科问题通常涉及更广泛和更模糊的知识领域。这些问题可能更多地依赖于直觉、经验和对多义词的理解，而不适合简单的逻辑推理。在文科问题中引入CoT可能会导致模型过度推理或沿着错误的方向发展推理链，因为这些问题可能需要更广泛的背景知识和创造性思维，而不是简单的逐步逻辑推导。因此，应根据问题类型和复杂性调整CoT的应用，以更好地适应不同任务的特点。

总结尽管大型语言模型在K-12教育中具有潜力，但它们的准确评估对于实际应用至关重要，而专为中国K-12教育定制的E-EVAL基准的引入提供了更准确和全面的评估标准。尽管E-EVAL不是竞争性排名，但它作为追踪大型语言模型在中国K-12教育中进展的关键工具。这可能为在中国K-12教育领域更广泛、更有效地利用大型语言模型铺平道路。

在本研究中，我们得出了以下潜在的见解：