Harnessing Structured Knowledge: A Concept Map-Based Approach for High-Quality Multiple Choice Question Generation with Effective Distractors
利用结构化知识:基于概念图的高质量多选题生成与有效干扰项设计
https://www.arxiv.org/pdf/2505.02850


摘要
生成高质量的多项选择题(MCQs),特别是那些涵盖不同认知层次并将常见误解融入干扰项设计的问题,是一项耗时且需要专业知识的工作,因此在大规模场景下手动创建并不可行。当前的自动化方法通常仅生成较低认知层次的问题,并且未能将领域特定的常见误解有效融入干扰项中。本文提出了一种基于分层概念图的框架,通过提供结构化知识来引导大语言模型(LLMs)生成高质量的多项选择题及其干扰项。我们选择高中物理作为测试领域,首先构建了一个覆盖主要物理主题及其相互关联的全面分层概念图,并采用高效的数据库设计进行存储。接着,通过一个自动化流程,检索与特定主题相关的概念图部分,作为LLM生成问题和干扰项时的结构化上下文,特别针对常见的学习误解。最后,通过自动化验证确保生成的多项选择题符合预设要求。我们将该框架与两种基线方法进行了对比评估:基础LLM方法和基于检索增强生成(RAG)的方法。我们开展了专家评估和学生测试来评估生成的题目质量。专家评估结果显示,我们的方法显著优于基线方法,在满足所有质量标准方面的成功率达到75.20%,而两种基线方法均约为37%。学生测试数据表明,我们的概念图驱动方法的猜测正确率显著更低,仅为28.05%,而基线方法为37.10%,说明该方法在评估概念理解方面更为有效。实验结果表明,我们基于概念图的方法能够实现跨认知层次的稳健评估,并可即时识别概念理解上的薄弱环节,从而在大规模场景下实现更快的反馈循环和精准的干预措施。
1 引言
多项选择题(MCQs)是一种广泛使用的客观评估形式,要求学习者从若干选项中识别出正确答案,这些选项中包含看似合理但实际错误的干扰项[8]。基于多项选择题的测试具有双重功能:评估与促进学习。研究表明,在回答多项选择题时进行信息提取的行为能够增强记忆保持并加深学习者的理解[25, 9]。实证研究证据表明,多项选择题能够加快学习成果的达成。其客观性使得评估过程简单直接,并能实现快速反馈,这对于课程计划中的持续性评估至关重要[39, 6]。当干扰项经过精心设计,能够反映常见的认知错误时,多项选择题便能够揭示学习中的薄弱环节,并减少随机猜测的可能性[18]。这使得教育者能够调整教学方法,并为学生提供有针对性的支持[11]。然而,创建具有有效干扰项、能够在不同认知层次上挑战学习者的高质量多项选择题,是一项资源密集型任务,且需要深厚的领域专业知识[1]。为弥补这一差距,我们提出了一种新颖的框架,利用概念图和经过指令调优的大语言模型(LLMs)实现多项选择题的自动生成与评估。代码、概念图及数据的GitHub仓库作为补充资源提供,供有兴趣复现或在此基础上开展研究的学者使用。
传统的多项选择题生成方法将题干生成、正确答案识别和干扰项生成分别处理。题干生成采用基于规则的转换和模板方法,正确答案的识别依赖于领域特定的关键词和短语匹配[12],而干扰项生成则采用基于语料库的方法(关注语言特征)或基于知识的方法[23]。这些方法存在诸多局限:题干模板僵化,正确答案识别缺乏上下文理解,干扰项生成难以产生语义相关且合理的错误选项,从而在大规模生成高质量多项选择题方面形成了重大瓶颈[1]。基于深度学习的方法,特别是带有注意力机制的序列到序列模型[37][4],带来了改进,尤其是分层循环编码器-解码器(HRED)架构[17]结合动态与静态注意力机制[22]。后续研究探索了不同的注意力机制以提升干扰项生成效果,例如进一步使用的协同注意力(co-attention)[33]用于篇章-问题交互[47],基于潜在狄利克雷分配(Latent Dirichlet Allocation)的主题感知注意力[34],以及SoftSel方法以减少暴露正确答案的干扰项[41]。
大规模数据集在提升多项选择题和干扰项生成方面发挥了关键作用。虽然RACE[44]和SWAG[44]等数据集主要关注阅读理解与推理能力的评估,但领域特定的数据集如SciQ[43]和EduQG[19]则推动了不同学科中结构化问题的生成。基于语义相似性的干扰项选择方法利用这些数据集,通过词向量的余弦相似度实现,使用的预训练语言模型(PLMs)包括word2vec[28]、GloVe[29]和fastText[7]。基于Transformer的模型,如GPT[30]、BERT[13]、T5[31]和BART[21],通过微调和检索增强预训练方法进一步提升了干扰项生成质量。近期研究利用上下文学习(in-context learning)[27]以及单阶段和多阶段提示技术(prompting techniques)[14, 24]来提升干扰项的质量。这些研究发现,在生成具有领域特异性、认知层次多样且干扰项有效的题目方面,仍有显著提升空间。此外,尽管大语言模型前景广阔,但也带来了新的挑战,例如偏见[16]和幻觉[45],可能导致生成看似正确但事实上错误的正确答案和干扰项。尽管知识整合在一定程度上有助于使模型输出更可靠,但现有方法仍难以完全解决这些问题,仍需专家验证,从而造成显著的资源瓶颈。
为应对这些挑战,特别是生成有效干扰项和减少专家干预的需求,我们提出了一种综合性的多项选择题生成与评估框架,该框架将分层概念图与经过指令调优的大语言模型相结合,用于生成包含适当干扰项的多项选择题。该框架还能自动验证所生成的问题、正确答案和干扰项的正确性。我们的主要贡献有三方面:第一,我们构建了一个涵盖高中内容的经典物理分层概念图,该图在年级、单元、主题和子主题层级上组织领域知识,以支持系统的知识检索与整合;第二,我们开发了一个框架,利用该概念图结构指导基于大语言模型的多项选择题生成,实现了自动化上下文检索,确保问题的多样性并防止重复,并通过验证步骤确保问题、答案和干扰项的正确性;第三,我们通过学生评估和专家评估提供了实证验证,将我们的框架与基础大语言模型方法及基于检索增强生成(RAG)的方法进行比较,重点分析概念图的整合如何提升多项选择题质量,并通过自动化评估减少对专家干预的依赖。
在接下来的部分中,我们将详细介绍我们的自动化多项选择题生成方法(第2节),随后是专家评估(第3节)和以学习者为中心的评估(第4节),每一部分均涵盖相应的方法与分析。接着我们讨论关键发现、实际实施中的考虑因素以及未来研究方向(第5节),最后总结本研究的更广泛意义(第6节)。
2 自动化多项选择题生成方法
图1展示了我们为自动化生成和验证多项选择题(MCQs)所开发的整体系统的示意图。系统的关键组成部分包括:概念图、基于大语言模型(LLM)从概念图生成问题,以及自动化验证。

2.1 内容与概念图设计
概念图是我们自动化多项选择题生成框架的核心。为了系统地组织教学内容,我们基于OpenStax高中物理教材[40],构建了一个涵盖19个单元的经典物理分层概念图。这些单元覆盖了物理学的五大主要主题(见图1(1a)):力学、电磁学、波动与声学、热力学以及光学。该分层框架构成了一个结构化的知识库,便于未来扩展至其他学科和年级。
在我们的概念图中(见图1(1b)),每个“单元”与OpenStax教材中的一个单元相对应,包含若干“主题”,而每个主题进一步划分为“子主题”。这些“主题”与教材中的章节相对应。对于每个主题,我们将其学习目标映射到修订版布鲁姆分类法(Bloom’s taxonomy)的认知维度和知识维度[3]。这种映射确保知识结构不仅涵盖内容本身,还包含适用于教学与评估的认知过程。我们通过布鲁姆分类法中的认知层次来衡量问题难度,其中高阶思维技能被认为比低阶技能更难。
在层次结构的最细粒度层级——子主题层面,每个子主题包含七个属性:(i) 先修知识,(ii) 数学表达式,(iii) 常见误解,(iv) 工程应用,(v) 跨学科主题,(vi) 类比,以及 (vii) 与印度国家教育研究与培训委员会(NCERT)课程的对应关系(以链接形式指向NCERT教材8至12年级的相关章节)。
先修知识分为两类:物理学科内的概念(例如,理解速度是学习加速度的前提)和来自其他学科的外部知识(如数学技能),这使得系统能够考虑知识之间的依赖关系。子主题中包含与该概念相关的详细数学表达式。例如,动能公式以JSON对象形式表示,其中包含使用LaTeX语法格式化的公式本身(例如,KE=21mv2),以便在检索时准确呈现数学表达。该数据对象还包括公式中每个变量的定义以及所涉及的国际单位制(SI)单位。
通过文献综述和教学经验识别出的常见误解,用于指导生成具有针对性的评估问题。跨学科主题突出了物理概念与其他学科之间的联系,支持跨学科评估。工程应用提供了现实世界的情境,展示理论概念的实际意义。精心选择的类比有助于将抽象的物理概念与学习者熟悉的经验联系起来。
内容由物理学科专家审阅,并经过迭代优化,以确保其准确性和教学适用性。构建物理概念图共耗时约80个专家工时(4位领域专家,每人20小时),包括概念图的创建与验证。我们尝试使用更大、更昂贵的大语言模型API,结合上下文示例,以半自动化方式构建概念图,发现这种方法可减少专家工作量,但专家验证仍不可或缺。尽管当前工作聚焦于物理学科,但该分层框架(包含年级、学科、单元、主题和子主题)及其详细信息设计具有领域通用性。在未来的迭代中,我们计划与下一代科学标准(NGSS)[36]对齐。
这种全面的分层概念图组织方式,为我们的自动化多项选择题生成系统奠定了基础,使其能够生成符合教学情境和教育目标的题目。除了题目生成外,该概念图也是一项具有长期价值的一次性投入,可用于多种教育应用场景。其结构化知识可通过先修知识映射学习路径,支持基于已记录误解的精准补救教学,指导课程设计,并增强教育数据分析能力。此外,通过明确将物理概念与其他STEM学科关联,该结构化知识还有助于建立跨学科联系。
框架的数据库架构是系统的另一关键组成部分,专为高效的知识管理与检索而设计。我们采用关系型SQL数据库(PostgreSQL)来构建系统结构,并维护知识元素之间的层级关系。通过混合存储模型引入了显著的灵活性:标准VARCHAR字段用于存储基本标识符(如键和名称),而复杂的教学信息则采用JSON格式存储。这种有针对性地使用JSON的方式,使得数据库能够在整体关系型框架内轻松管理多样且不断演化的信息类型。
与常见的检索增强生成(RAG)方法相比,这种结构化数据库方法具有显著的效率优势。RAG方法通常在大规模文本数据集上进行语义搜索,而我们的方法通过SQL直接查询数据库,并利用对JSON字段的索引优化,能够比基于文档嵌入的语义搜索更快、更少计算资源地检索到特定且精准的信息。此外,这种结构化存储方式通常需要更少的存储空间,因为它仅保存提炼后的知识元素,而非RAG系统所需的大量且可能重复的文本片段。因此,该数据库设计在提升检索可靠性的同时,加快了检索速度,并降低了题目生成阶段的计算负载。
2.2 生成式语言模型的选择
我们基于概念图的多项选择题生成框架需要一个强大的大语言模型(LLM)来完成生成任务。我们对多个开源和专有的生成式语言模型进行了全面评估,重点关注其在多项选择题生成方面的表现,同时考虑了潜在生产部署中的API成本实用性。我们评估了以下六个模型:Llama 3.1 70B、Llama 3.3 70B模型[15]、Qwen 2 72B[5]、GPT-4o[20]、GPT-4o mini,以及Gemini 1.5 Pro[38]。
为了系统评估各模型的性能,我们设计了一个受控实验,选取五个不同的力学主题进行测试。针对每个主题,我们生成了覆盖布鲁姆分类法从“记忆”(Remember)到“评价”(Evaluate)各个认知层次的问题,每个模型共生成25道题。每道生成的题目均经过人工评估,重点检查其科学准确性与事实正确性,特别是物理概念是否正确表达,以及是否恰好只有一个选项是正确的。
分析结果显示,Llama 3.3 70B的表现优于其他模型,产生的概念性错误少于我们测试的其他选项。这一性能优势,加上其在部署场景中更具成本效益,使其成为我们框架的最佳选择。尽管GPT-4o等专有模型偶尔能生成语言更优美的题目,但Llama 3.3 70B在准确性上的优势对教育应用更为关键。我们使用LangChain作为开发框架,以方便试验不同的提示模板并保持一致性。
2.3 多项选择题生成方法
在尝试了各种提示策略后,我们设计了一种结构化的“思维链”(Chain-of-Thought, CoT)提示模板[42],明确列出所有生成要求。该提示模板包含四个关键输入:物理主题、年级水平、布鲁姆分类法中目标认知技能层次,以及该技能的定义。提示还强制要求满足若干关键教学原则:(1) 每个干扰项应针对该主题的特定误解或先修知识;(2) 学生只有真正掌握该概念才能答对题目;(3) 语言复杂度必须与学生的年级水平相匹配;(4) 题目必须包含特定情境下的物理应用。
提示还规定了输出采用JSON格式,以便于结构化数据处理,内容包括:题目文本、目标技能、四个选项、正确答案、正确答案的详细解释,以及每个干扰项所针对的具体误解或先修知识。
2.3.1 基线方法
我们实现了两种基线方法,用于对我们新提出的基于概念图的多项选择题(MCQ)生成方法进行性能对比。
第一种基线方法,以下简称“基础LLM方法”,我们通过TogetherAI API服务调用了Llama 3.3 70B Instruct模型。设置温度值(temperature)为0.75,以在题目生成的创造性与输出的一致性和连贯性之间取得平衡。
第二种基线方法,以下简称“基于检索增强生成(RAG)的方法”,我们使用ChromaDB构建了一个向量数据库。为了填充该数据库,我们采用sentence-transformers[32]中的all-mpnet-base-v2[35]模型,对OpenStax高中物理教材的全部内容(不包括练习题部分)生成了嵌入向量(embeddings)。在生成题目时,系统通过相似性搜索检索出最相关的三个内容片段,并将这些片段作为上下文提供给大语言模型(LLM)。基于RAG的提示模板在基础提示的基础上,加入了这些检索到的教材内容作为补充上下文。
2.3.2 基于概念图的多项选择题生成流程
图1(2)展示了我们基于概念图的多项选择题(MCQ)生成的端到端流程,该流程包含三个主要组件:(a) 使用结构化内容进行提示,(b) 多项选择题生成,以及 (c) 验证。该流程也在算法1中以算法形式进行了详细说明。

该过程首先在数据库中查找与用户输入最相似的主题。这一匹配过程以零样本(zero-shot)方式使用大语言模型(LLM)完成,即不提供具体示例,且将温度值设为零,以确保结果的确定性。具体而言,LLM会收到我们概念图中特定年级层级下的所有主题列表,并被要求找出与用户输入主题最接近的匹配项。在确定匹配主题后,系统生成并执行精确的SQL查询,以检索相关的子主题。所检索的数据包括子主题的描述、数学表达式、先修知识、常见误解、跨学科主题、工程应用以及类比。这些结构化信息随后作为上下文输入给大语言模型,用于生成与用户主题相关且符合课程标准的多项选择题。
这些结构化上下文信息进入多项选择题生成组件(图1(2b)),在此,大语言模型根据提供的上下文和“思维链”(Chain-of-Thought)提示,为每个认知技能层次生成题目,依次从“记忆”(Remember)到“评价”(Evaluate)逐步推进。我们基于概念图的提示模板(图1(2a))最为复杂,明确指示模型使用作为上下文提取出的具体结构化知识元素,并避免生成与已有题目历史相似的问题。
生成的多项选择题随后进入验证阶段(图1(2c)),分为两个步骤:首先,验证其是否符合指定的JSON格式;其次,进行自动化验证,其中大语言模型充当“评判者”[46],检查题目及其答案的正确性。如果任一验证步骤失败,系统将使用相同的输入重复生成过程,直到生成有效的题目为止。
我们解决的一个关键问题是防止在不同认知层次上生成重复的题目情境。由于题目是按认知技能层次依次生成的,大语言模型倾向于在相同主题内重复使用类似的情境。为缓解这一问题,我们实现了一种题目历史追踪机制。成功通过验证的题目会被添加到该历史记录中,在后续生成新题目时作为额外的上下文。该方法明确指示大语言模型创建与之前题目不同的新情境,从而确保在不同认知层次上使用的实际应用、情境和背景具有多样性。这种多样性对于保持学生的学习兴趣,以及全面评估概念理解的不同方面至关重要。
为了评估我们的框架并建立一个基准数据集,我们使用三种方法(包括我们的方法和两种基线方法)从OpenStax教材中选取50个主题生成题目。对每个主题,我们生成了5道分别对应五个认知能力层次的题目,最终构建了一个包含750道多项选择题的数据集。我们将该数据集命名为OpenStax PhyQ数据集,其遵循我们规定的JSON格式,并已公开发布于GitHub仓库5,以支持未来相关研究。
3 专家评估
我们进行了专家评估,以评估所生成的多项选择题(MCQs)的质量、相关性以及教学合理性。
3.1 方法
由四位具有研究生学历且在物理学科领域具备专业知识的专家组成评审小组进行评估。每道题目由四位专家中的两位独立评审,使用一个包含八项指标的评分量规(见表1),用于评估题目的质量和干扰项的有效性。

专家采用分层评估方法:如果对“相关性”或“正确性”两项的评价为“否”,则停止对该题目的进一步评估,其余各项标准均标记为“不适用”(NA),因为错误或无关的题目显然不适合用于教学评估。这种方法通过将专家精力集中在满足基本要求的题目上,优化了评估流程。
我们的评分量规有意针对特定的质量维度进行设计。“相关性”标准用于确保题目确实针对指定的物理主题。“正确性”则验证题目表述和指定正确答案的科学准确性。“年级水平”评估考察词汇、句子结构和概念复杂度是否与目标学习者的教育阶段相匹配。“相似性”检查旨在防止重复,确保同一主题下的题目从不同角度考查概念。“布鲁姆层次”(BloomsLevel)评级用于识别题目所考查的认知技能,使我们能够判断题目是否恰当地对应了其预期的布鲁姆分类法层级。
在干扰项评估方面,我们重点关注三个标准:“合理性”确保干扰项并非明显错误,而是能够对概念理解不完整的学生构成挑战;“误解”评估验证每个干扰项是否针对物理学教育中常见的具体概念错误或知识漏洞;“独立性”则检查各个干扰项是否代表了不同的误解,而非重叠或逻辑上相互依赖的错误。
对于除“布鲁姆层次”对齐之外的每一项评估标准,只有当两位专家评审员均给出“是”时,该题目在该项上才被视为可接受。对于以干扰项为重点的标准,要求两位专家对某道题目中的所有干扰项均给出“是”,该题目在该项上才被视为合格。一道生成的多项选择题只有在所有评估标准上均获得两位专家评审员一致的“是”评价,才最终被归类为“高质量”。
当专家对某题目的“布鲁姆层次”分类存在分歧时,两位评审员会进行详细讨论,最终达成共识,确定其认知技能层级的分类。
即使在审查相同内容时,人类判断也存在自然差异,这种差异可能源于个人因素,如写作风格、假设、知识背景和细节关注度[2]。为保持评估的一致性并处理评分差异,我们使用多种指标评估了评分者间信度(inter-rater reliability)。我们计算了所有标准的评分者一致百分比,以直观反映评分者判断的吻合程度。然而,由于该指标未考虑偶然一致的可能性,我们还针对二元标准(是/否)计算了科恩·卡帕(Cohen’s Kappa, κ)[26],以提供更稳健的一致性度量。对于有序变量的布鲁姆分类法评估,我们采用二次加权的科恩·卡帕(quadratic weighted Cohen’s Kappa)[10],这种方法对较大的分歧(如“记忆”与“分析”之间)施加更重的惩罚,而对相邻认知层级之间的分歧惩罚较轻。这一系统性的信度测量方法确保了我们的评估过程在专家评审存在自然差异的情况下仍保持有效性。
3.2 分析
表2展示了两位专家评审员在各项评估标准上的评分者间一致性(inter-annotator agreement)。专家判断具有高度可靠性:在“相关性”和“正确性”两项上达到了完全一致(1.00),其余各项的一致性也较高(0.90–0.99)。科恩·卡帕(Cohen’s Kappa)值显示,与题目相关的标准(相关性、正确性、年级水平、相似性以及布鲁姆层次)具有很强的一致性(κ > 0.80),而与干扰项相关的标准(合理性、误解、独立性)则表现出中等至一般的一致性,这可能是因为评估干扰项的合理性以及识别误解本身具有较强的主观性。

表3展示了不同多项选择题生成方法(基础LLM、RAG和基于概念图的方法)的性能表现。“高质量”行表示在所有评估标准上均获得两位专家一致正面评价的题目所占百分比。结果以符合各项标准的题目百分比表示,基于两位专家达成一致的判断。

在以题目为核心的评估标准方面,所有多项选择题生成方法在“相关性”上均表现出色,得分始终超过94%。但在“正确性”方面则表现出更明显的差异:我们基于概念图的方法得分最高,约为88%;而RAG和基础LLM两种基线方法的表现中等偏下,得分在70%出头。在“年级水平”适宜性方面也呈现类似趋势:基于概念图的方法领先,接近87%;RAG和LLM方法约为75%。在“相似性”评估中差异最为显著,基于概念图的方法以约88%的表现大幅优于LLM和RAG方法(均约为50%),凸显了这些基线方法在生成多样化题目方面的明显不足。在“布鲁姆层次”对齐方面,各方法表现相对稳定,基于概念图的方法略占优势,达到约79%。
在以干扰项为核心的评估标准方面,基于概念图的方法在所有指标上均持续表现出更优性能:在“合理性”上达到80%,在针对常见“误解”方面接近83%,在保持选项之间的“独立性”方面约为84%。相比之下,两种基线方法表现明显较低:RAG方法在各项指标上得分约为66%–68%,略优于基础LLM方法(61%–68%)。具体而言,基础LLM方法在“合理性”上表现最弱,仅约61%;在“独立性”上略好,达到68%。RAG方法在这些标准上的表现相对均衡,各项得分均在66%–68%左右,但仍显著落后于基于概念图的方法。这些结果突显了我们基于概念图的方法在生成教学上合理且有效的干扰项方面的独特优势:不仅干扰项足够合理,能够有效挑战学生,而且能准确针对常见误解,同时确保各选项之间具有清晰的区别。
表3中“高质量”行所呈现的综合性能指标,通过计算成功满足所有评估标准的题目百分比,对多项选择题(MCQ)的质量提供了全面的衡量。我们新提出的基于概念图的多项选择题生成与验证方法表现出显著的优越性,成功率达到75.20%,表明每四道题中就有三道满足全部质量标准。相比之下,基础LLM方法和RAG方法的成功率明显较低,均约为37%,意味着其生成的题目中仅有略多于三分之一符合所有质量要求。结果表明,基于概念图的方法在生成高质量多项选择题方面明显优于基线方法。评估过程的可靠性得到了较高的评分者间一致性的支持,进一步验证了这些发现,证明了通过概念图引入结构化领域知识能够显著提升多项选择题的生成质量。
4 以学习者为中心的评估
为了补充我们的专家评估,我们对学生进行了以学习者为中心的评估,旨在考察每种生成方法在创建能够真实衡量学生理解程度、同时有效抵御随机猜测成功的题目方面的有效性。
4.1 方法
评估在一所印度公立学校的145名九年级学生中进行,以评估自动生成的多项选择题(MCQs)的质量与有效性。该校学生来自不同的社会经济背景和地区,主要服务于中央政府雇员的子女,这些家庭经常在全国范围内调动。
用于学习者中心评估的题目,是从专家评估中“正确性”标准下两位评审均标记为“是”的生成题目中随机选取的。这一初步筛选确保了每道题在科学上准确无误,且所提供的选项中恰好只有一个正确答案。除这一基本的正确性验证外,未进行其他质量检查,因为我们的目标是评估每种生成方法未经额外过滤的原始输出质量。
每位学生完成一份包含15道题的测试,其中每种生成方法各占5道题。我们从九年级物理的多个主题中选取题目组成测试。在每份试卷中,题目按照布鲁姆分类法的认知技能层次从“记忆”到“评价”逐步递增难度。测试设计中特别确保:在同一版本的试卷中,任何“主题—技能层次—生成方法”的组合仅出现一次,以避免重复,并保证学生在测评中接触到多样化的题目。
在整个学生群体中,共使用了九个不同版本的测试试卷,每位学生仅完成其中一个版本。这种方法使我们能够在保持单个学生测试长度合理的同时,覆盖更广泛的生成题目。对于每一道回答的题目,我们收集了学生的答案、答题时间、自我报告的猜测情况以及对题目难度的主观感知。学生通过选择“是”或“否”来直接表明自己是否进行了猜测。同时,他们还需将每道题的感知难度评为“困难”、“中等困难”或“简单”。
本次评估的主要目标是分析学生在三种多项选择题生成技术下的猜测行为,旨在评估不同方法生成的干扰项在阻止成功随机猜测方面的有效性。
“猜测成功率”是使用的主要指标,“准确率”和“难度加权准确率”作为附加指标,以全面评估题目的质量。这些指标定义如下。


这种综合评估方法结合了通过结构化标准进行的专家评估,以及基于学生表现指标的学习者中心评估,从而对我们的概念图驱动方法生成的多项选择题(MCQs)以及两种基线方法生成的题目进行了严格、全面的评估。
4.2 分析
以学习者为中心的评估揭示了三种题目生成方法在表现上的显著差异,结果如表4所示。
在准确率方面,基础LLM方法表现最高,达到44.47%,RAG方法和基于概念图的方法分别以40.66%和37.25%紧随其后。在考虑题目难度的“难度加权准确率”指标中,这一趋势保持一致:基础LLM方法仍以41.08%领先,RAG方法为37.67%,基于概念图的方法为33.60%。
基于概念图的生成方法在题目难度和学生猜测行为方面表现出尤为有趣的特点。尽管其原始准确率(37.25%)和难度加权准确率(33.60%)最低,但这似乎直接与其题目的挑战性相关。基于概念图生成的题目利用了我们结构化知识库中的特定误解和先修知识,为学生设置了更为精细的挑战,要求更深层次的概念理解。
这一解释得到了“猜测成功率”分析的有力支持:基于概念图的方法猜测成功率为28.05%,显著低于RAG方法的33.16%和基础LLM方法的37.10%。这一明显更低的猜测成功率表明,使用基于概念图方法生成的题目更能有效抵御成功的猜测行为。当学生不确定答案而选择猜测时,他们答对基于概念图生成的题目的可能性,低于另外两种方法生成的题目。
为了严谨分析干扰项的有效性并验证这一初步观察结果,我们进行了卡方同质性检验(chi-square test of homogeneity)。该检验揭示了题目生成方法与猜测成功之间存在显著关联(χ² = 6.78,p = 0.034),表明题目生成方法影响了学生成功猜测正确答案的能力。为进一步确定具体差异,我们随后进行了z检验的成对比较。结果显示,基于概念图的方法猜测成功率为28.05%,显著低于基础LLM方法的37.10%(p = 0.009,α = 0.05)。关键的是,即使在采用更为保守的邦弗罗尼校正(Bonferroni correction,α = 0.0167)后,这一显著差异仍然存在,增强了该发现的稳健性。RAG方法的猜测成功率为33.16%,处于中间水平,无论是否进行邦弗罗尼校正,其与基础LLM方法(p = 0.235)和基于概念图方法(p = 0.145)相比均无统计学上的显著差异。我们还分析了三种方法的答题时间,发现三者之间具有可比性,表明表现差异并非由于学生在某类题目上花费了更多或更少的时间所致。
这些发现表明,尽管基于概念图的方法生成的题目准确率较低,但它可能生成了更具区分度的评估题目,能更好地区分真正理解物理概念的学生和不理解的学生。概念图中的结构化知识似乎有助于生成更具挑战性的干扰项,有效针对常见误解,使得学生在缺乏真正概念掌握的情况下更难猜对答案。这一结果意义重大:尽管学生在基于概念图的题目上得分较低,但这些题目更具挑战性,因此更难通过猜测答对。
尽管这些结果令人鼓舞,并指出了基于概念图的方法在干扰项生成方面的独特优势,但更大的样本量将提供更强的统计功效,以检测方法间的潜在差异。此外,将研究扩展至多个年级的学生,将有助于验证这些发现的普适性。
5 讨论
我们的评估表明,结构化领域知识显著提升了多项选择题(MCQ)的质量,尤其是在教学合理性和干扰项有效性方面。我们的方法明显优于基线方法:四分之三的题目满足了所有质量标准,而基线方法仅略高于三分之一。在专家评估的各项指标中,基于概念图的方法优于基础大语言模型(LLM)和基于检索增强生成(RAG)的方法。在以学习者为中心的评估中,三种方法在猜测成功率上表现出具有统计学意义的差异。与基础LLM方法相比,基于概念图生成的多项选择题猜测成功率更低,表明这些题目更具挑战性,更不容易被随机猜对,能够更有效地评估学生的深层概念理解,而非浅层知识。这些结果凸显了在教育内容生成中采用结构化知识表示的根本优势。
尽管更强大的大语言模型可能提升基线方法的表现,但通过概念图实现的结构化知识支撑提供了超越模型能力本身的独特优势。构建概念图是一项一次性投入,却能实现持续、符合教学原则的题目生成——这一过程未来甚至可通过具备能力的大语言模型结合上下文示例实现半自动化。如果没有这样的结构化基础,即使使用昂贵的模型,也需要大量复杂的提示工程,且常常生成可能提高猜测成功率的干扰项,从而削弱评估的有效性。
我们的分析得出了令人鼓舞的结果和有趣的洞察。基础大语言模型虽能展现出正确的推理过程,但偶尔仍会选择错误答案;而RAG系统有时会检索到边缘化或无关的信息。相比之下,基于概念图的生成方法因其确定性机制,能够确保内容的相关性。值得注意的是,尽管三种方法在不同物理主题上的表现均较为稳定,但基于概念图的方法在较高认知层次上表现出比其他方法更强的一致性。然而,所有方法在认知复杂度增加时,性能仍有所下降,尤其是在布鲁姆分类法的最高层级上表现更为明显。
5.1 实际实施考虑
除了有效性之外,我们的方法在部署场景中还具有显著的实用优势。基于概念图的系统相较于其他方法表现出明显的成本节约。与RAG方法需要大量存储文本嵌入并进行计算成本高昂的相似性搜索不同,我们采用的SQL数据库实现轻量且具有确定性。该系统的API部署非常简便,无需模型微调或专用硬件,使其特别适用于资源受限的教育环境。此外,高中物理内容在时间上相对稳定,因此初始概念图的构建是一项一次性的投入,却能带来长期回报。
5.2 局限性与未来工作
所有方法在处理复杂的数学任务时均面临挑战,例如三位数的乘除法、反三角函数运算,以及理论内容与数值内容的平衡,还有题目与目标认知层次的对齐问题。在处理严格的数值型问题时存在困难,即使目标是更高认知层次,生成的题目也常常局限于“应用”层次。这些局限可归因于大语言模型在数学任务上的固有缺陷。
未来的研究可将评估扩展至更多年级的更广泛学生群体,以增强本研究结果的适用性。进一步的技术改进可聚焦于提升数学处理能力,例如引入专用模块,并优化验证机制,特别是针对复杂的数值计算过程。
6 结论
我们开发了一种新的基于概念图并结合大语言模型(LLM)的方法,用于生成高质量的多项选择题(MCQs),其干扰项设计可有效降低学生在高中物理教育中的成功猜测率。在专家对生成题目的评估中,我们的方法显著优于基础LLM和基于检索增强生成(RAG)的系统:基于概念图生成的题目中有四分之三满足了所有质量标准,而基线方法仅有三分之一达到要求。学生测试进一步验证了这一结果,显示使用我们方法生成的题目具有更低的猜测成功率。
本研究的意义超越了多项选择题的生成本身,我们提供了一个全面的物理概念图,以及一个经过专家验证、标注了布鲁姆分类法认知层次的多项选择题数据集。我们所采用的结构化知识表示方法,可作为模板推广至其他学科领域,结合更强大的模型(如OpenAI O1或Claude 3.5 Sonnet),显著减少为其他学科开发类似系统所需的工作量。
此外,我们的题目设计有意将常见误解与干扰项选项直接关联,为教育者提供了一种强大的诊断工具。当学生选择某个特定的错误答案时,这一选择可直接映射到我们在概念图中识别出的特定误解或知识漏洞。这种结构化方法将多项选择题从简单的评估工具转变为丰富的诊断工具。例如,如果某学生在多个题目中持续选择与“混淆速度与加速度”相关的干扰项,教师便能精准识别这一概念性误解,并提供针对性的补救教学。这种诊断能力不仅适用于个体学生,还可扩展至班级层面的分析,帮助教师识别群体间的共性误解,并相应调整教学策略。通过将错误答案与具体的概念漏洞关联起来,我们的方法实现了更高效、更精准的教育干预,能够针对学生真实的学习缺陷,而非采用泛化的补救措施。
本研究展示了结构化知识表示在多项选择题生成中的巨大潜力,但要在认知对齐和验证方面进一步取得进展,才能充分发挥自动化STEM评估的全部潜能。智能辅导系统可利用我们的自动化题目生成技术,大规模地为学生定制个性化测评,有望在全球范围内,特别是在发展中国家,彻底改变高质量教育的获取方式。
原文链接:https://www.arxiv.org/pdf/2505.02850