首页
学习
活动
专区
圈层
工具
发布

突破“结构性失明”,SEAL攻克结构化长文档检索难题

始智AI wisemodel.cn社区是源自中国的中立开放的AI开源社区。正在招募 | 新一期开源共创志愿者计划,欢迎加入共同成长。wisemodel推出邀请注册奖励活动,最高可得算力券+token包380元奖励,欢迎参与和支持!

在处理 HTML、Markdown 等长篇结构化文档检索时,现有方法常因忽略 h1、h2 等文档结构标签而面临 “结构性失明(Structural Blindness)” 问题,为此本文提出了名为 SEAL 的全新对比学习框架,其核心方法包含两部分:

一是结构感知学习(Structure-Aware Learning,SAL),通过对比含结构标签与不含结构标签的文档帮助模型理解整体层级结构;二是元素感知对齐(Element-Aware Learning,EAL),通过随机遮蔽部分元素的标签迫使模型进行更细粒度的语义对齐。

实验结果表明,SEAL 框架在多个基准模型上效果显著,例如在 BGE-M3 模型上将 MRR@10 指标从 73.96% 提升至 77.84%,且其有效性已在真实线上 A/B 测试中得到验证,这项研究的核心贡献在于创新性地将文档的宏观层级结构与微观元素语义同时融入统一的 Embedding 空间,大幅增强了预训练语言模型对结构化数据的理解和表示能力,同时还发布了专门用于此类研究的长文本带结构标注新数据集 StructDocRetrieval,填补了该领域的数据集空白。项目均已上线始智AI-wisemodel开源社区,欢迎体验。

代码和数据集地址

https://wisemodel.cn/codes/Rilzob/SEAL

https://wisemodel.cn/datasets/Rilzob/StructDocRetrieval/file

01.

结构化长文档检索中的常见挑战

在日常工作和学习中,我们常常需要从篇幅浩繁的文档中寻找特定信息,例如技术手册、法律文书或研究报告。面对这些结构复杂的长文本,即便是先进的Embedding模型,也可能在信息检索时表现不佳。

一个关键原因是,现有方法在处理结构化长文档时,大多将其视为一长串无差别的纯文本,忽略了标题、段落、列表等固有的结构信息。这种对文档层次脉络的“视而不见”,我们称之为“结构性失明”(Structural Blindness),它限制了Embedding模型对文档深层语义的理解能力。针对这一挑战,我们提出了名为 SEAL (Structure and Element Aware Learning) 的对比学习框架,尝试让Embedding模型更好地理解和利用文档的结构信息。

02.

SEAL框架的设计思路

该研究旨在解决长文档检索中的两个具体问题:一是如何让模型感知文档的层次结构,二是如何促进用户查询与文档内部具体元素之间的精准对齐。SEAL框架为此设计了两种相辅相成的训练策略。我们可以将其理解为对Embedding模型进行的两项专门“辅导”。

1、结构感知学习(Structure-Aware Learning, SAL)—— 尝试理解文档的"骨架"

传统的Embedding模型在读取HTML等格式的文档时,往往会剥离<h1><p>等结构标签。SAL的核心思路则有所不同。它在训练时会向模型同时展示一份文档的两个版本:一个保留了结构标签,另一个则去除了标签。通过对比学习的任务,模型被鼓励去发现,即使没有明确的标签,某些文本片段(如标题)的内容和位置也蕴含着其结构功能。通过这种方式,模型能够逐步学习到文档的内在"骨架",区分不同部分的逻辑功能。

2、元素感知对齐(Element-Aware Alignment,EAL)—— 关注局部元素的语义角色

为了进一步提升模型对细节的把握,EAL策略引入了一种基于元素(如一个标题或一个段落)的Mask机制。在训练中会按照固定比例随机Mask文档中的一小部分元素,然后要求模型判断这份信息不完整的文档是否与给定的Query相关。为了完成任务,模型必须更依赖文本内容本身以及周围未被遮盖的元素来推断文档的整体相关性。这个过程促使模型更深入地理解每个文本片段的语义角色及其在上下文中的作用。

实验结果表明,这两种训练策略的结合能够带来积极效果。在BGE-M3模型上的测试显示,应用SEAL框架后,衡量检索排序质量的关键指标NDCG@10从73.96%提升至77.84%。这一数据表明,模型在将更相关的结果排在靠前位置的能力上有所增强。同时,线上A/B测试的结果也初步显示了该方法在实际应用场景中的积极影响。

03.

为结构化文档检索提供新视角

SEAL框架的探索为信息检索领域,特别是长文档处理,提供了一个有益的视角。在学术层面,这项工作强调了在模型训练中利用文档原生结构的重要性,并提出了一种可行的技术路径。同时,该团队还发布了一个名为StructDocRetrieval 的新数据集,其中包含带有结构标注的万词级别长文档。这个资源的公开,为社区评估和开发面向长文档的检索模型提供了一个新的Benchmark,有望推动相关研究的进一步发展。

在应用层面,这种对结构信息的精细理解,有望为检索增强生成(RAG)等下游任务提供更可靠的信息来源。例如,当AI助手需要从复杂的技术文档中寻找答案时,对结构的理解能帮助它更准确地定位和引用信息。在企业知识库、法律科技等专业领域,该方法也展现了其应用前景。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OuaA4uYn9exlY8NXwJwZJc0A0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

领券