首页
学习
活动
专区
圈层
工具
发布

高质量开源科学数据集,1.2万本大学级教材

大模型的数学、编程的训练数据集不少,但关于科学领域的高质量训练数据集并不多。所以,上海交通大学 SII-GAIR 实验室的研究团队开源了一个高质量科学数据集TextBookReaSoning(简称“TBRS”)。

TBRS是基于 超过1.2万本大学级科学教材,包含 65 万个推理问题,涵盖物理学、生物学、化学、医学、计算机科学、数学和经济学七大领域。

开源地址:https://huggingface.co/MegaScience

为了确保数据集的高质量,团队首先对收集到的教材进行了严格的筛选,排除了那些标记为限制公共访问的书籍。随后,利用先进的自然语言处理技术,特别是Llama3.3-70B-Instruct模型,对每本书的主题领域和学术水平进行了自动分类,确保所有入选的教材都达到大学水平。这一过程不仅提高了数据集的学术标准,还为后续的数据处理奠定了坚实的基础。

在教材数字化方面,研究团队采用了olmOCR工具,将PDF格式的教材转换为机器可读的文本格式。这一转换过程不仅保留了教材的原始内容,还为后续的数据处理提供了便利。通过这一系列的收集和数字化处理,研究团队成功构建了一个包含12800本学术书籍的高质量数据集,为科学推理数据集的开发提供了丰富的素材。

在教材数字化之后,研究团队面临的下一个挑战是如何从这些教材中提取出高质量的问答对。传统的问答对提取方法往往存在一定的局限性,例如只能提取简单的问题,或者生成的问题缺乏深度和逻辑性。为了克服这些局限性,研究团队设计了一种创新的双重问答对提取策略。

高标凈要求问题必须涉及多步骤的推理,而不是简单的定义或概念回忆。这意味着问题的答案需要包含完整的解决方案和所有必要的过程步骤,以确保问题的复杂性和深度。低标准则相对宽松,只要求问题和答案是完整的,即使它们可能不需要复杂的推理过程。通过这种双重标准的提取策略,研究团队能够从教材中挖掘出既包含复杂推理问题,也包含简单直接问题的丰富问答对,从而确保了数据集的多样性和全面性。

在实际操作中,研究团队将教材分割成4096个标记的块,然后利用Llama3.370B-Instruct模型对每个块进行处理,根据高、低两种标准提取问答对。这一过程不仅保留了教材中的原始信息,还避免了引入过多的大模型生成内容,从而确保了问答对的真实性和可靠性。通过这种双重问答对提取策略,研究团队最终从教材中提取了945k个问答对,为后续的数据处理和模型训练提供了丰富的素材。

在提取了大量问答对之后,研究团队面临的下一个挑战是如何去除重复的问题。重复问题的存在不仅会降低数据集的质量,还会影响模型训练的效率。为了有效去除重复问题,研究团队采用了基于局部敏感哈希技术的单词级方法。这种方法通过计算问题之间的相似度,识别并去除那些高度相似的问题。

研究团队设定了一个相似度阈值为0.6,即当两个问题的相似度超过60%时,就认为它们是重复的。通过这种方法,研究团队系统地移除了那些高度相似的问题,从而确保了数据集中每个问题的独特性。

在去重之后,研究团队面临的另一个挑战是如何提高问答对的质量。许多提取的问答对可能缺乏必要的信息,或者包含对文档信息的引用,而对应的答案往往解释不足,遗漏了关键的中间推理步骤。为了解决这些问题,研究团队采用了基于大模型的问答对精炼方法。通过DeepSeek-V3模型根据相关源文档对提取的问答对进行精炼,确保精炼后的问题包含所有必要的上下文信息,并且精炼后的答案提供了全面的解释和清晰的推理过程。

此外,研究团队还使用Llama3.3-70B-Instruct模型来识别缺乏推理过程的问答对,并应用DeepSeek-V3模型添加解释并重新格式化答案。通过这种双重精炼策略,确保了每个问答对都具有高质量的推理过程和完整的解答。

在问答对精炼之后,研究团队面临的最后一个挑战是如何确保数据集的纯净性,避免基准测试中的问题泄露。传统的去污染技术依赖于n-gram重叠或嵌入相似性来移除潜在的基准测试泄露问题,但这些方法很容易被简单的措辞或结构变化所规避,因此无法确保基准测试评估的完整性。为了实现更严格的基准测试去污染,研究团队采用了基于大模型的去污染方法。

研究团队首先使用嵌入相似性搜索来识别所有基准测试数据集中与之最相似的前k(k = 5)个测试样本。然后,通过将每个问题与这些前k个测试样本配对,创建问题对。接着,部署Llama3.3-70B-Instruct模型来评估这些配对中是否有任何一对是释义。如果k对中有任何一对被判定为释义,则将该问题从数据集中移除。

END

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OwxIb8VrMcSJrItczUVnYQwA0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

领券