文档切分设置

最近更新时间:2025-09-22 15:00:52

我的收藏
文档切分指的是系统按照一定规则,将文档内容划分为多个独立的切片。这些切片会被索引并存储在知识库中,是实现 RAG(Retrieval-Augmented Generation,检索增强生成)能力的核心环节。在问答过程中,当用户提出问题时,系统会先从知识库中检索与问题最相关的内容切片,然后将这些切片作为外部知识注入大模型的上下文中,辅助其生成答案。合理的切分大小将直接影响检索和生成的效果:
切片过大:可能包含过多无关信息,导致检索精度下降,并增加计算与资源消耗。
切片过小:内容不完整,缺乏上下文连贯性,容易造成召回知识片段碎片化,使生成答案不够全面。
因此,平台在产品层面提供了灵活的文档切分规则,支持用户根据业务需求自定义调整规则,以在检索效率与生成质量之间取得最佳平衡,充分发挥 RAG 技术在知识问答与信息检索中的优势。

文档切分功能介绍

文档切分的规则支持默认切分规则自定义切分规则:
默认切分规则:产品使用模型能力进行切分,默认切片规则不支持用户干预。
自定义切分规则:提供3种切分规则支持用户选择,包括通用标识符切分、父子标识符切分、及按行切分。
切分规则及对比
默认切分
通用标识符切分
父子标识符切分
按行切分
适用文档类型
产品上支持导入的全部文档类型。
支持非表格类的文档,不包括 xlsx、xls、csv。
支持非表格类的文档,不包括 xlsx、xls、csv。
支持表格类的文档,包括xlsx、xls、csv。
使用场景
适用于对文档切分无特殊要求的场景。
适用于对切片有特殊业务要求的场景,如按照页数切分、按照自定义的标识切分。
适用于对检索切片和召回切片分别都有特殊要求的场景。支持用户自定义设置切分标识符做切分。
对表格文档生效,且每行/每几行数据是独立的、无语义关联性,如商品sku文档。
切分逻辑
基于切分模型实现切分:
支持语义完整性切分。
支持跨页表格合并。
支持解析表格中的图片信息。
支持解析文档中的表格内容,包括有线及无线表格。
支持数据图、流程图、架构图、思维导图的解析。
支持多栏、公式、子图等复杂元素的解析。
支持用户设置标识符、切片最大长度、切片重叠长度切分文档,切片用于检索和大模型召回使用。

父级和子级切片分别支持用户设置标识符、切片最大长度、切片重叠长度。

子级切片用于知识检索,检索到对应的父级片段后用于大模型召回
支持用户设置表头范围、数据切分起始行以及切分行数。系统将表格文档按照设置的切分行数切分成片段。

功能入口

入口1:在知识库中第一步上传文档,第二步设置文档切片。按照文档类型对同一批上传的文档生效。



入口2:已导入的文档可重新设置文档切分,在【解析切分干预】功能中,可查看解析切分的结果并支持重新设置切分规则。



说明:
设置文档切分规则后,将按照原文档重新切分,覆盖之前干预的切分结果。

功能说明

1、表格文档

支持设置默认切分按行切分,设置后对所有表格类的文档生效,包括 xlsx、xls、csv。
默认切分
产品上使用“切分模型”基于表格行数、语义完整性等进行切分。
按行切分
系统按照用户自定义的规则将内容拆分为独立的片段,当用户输入问题后,系统使用用户问题检索切片内容,并将匹配的切片内容召回给到大模型用于答案生成。切片用于知识检索和大模型召回使用。
表头范围:支持选择表格文档的表头范围,每个切片中都会包含表头数据,区间最大支持设置5行。
切分起始行:开始切分的行数。如设置从第2行开始切分,则第一个切片包含表头和第2行数据。切分起始行不可以与表头范围重复。
切分行数:从切分起始行开始每个切片按照设置的切分行数进行切分。如设置切分行数为每1行,切分起始行为第2行,则第一个切片为表头+第2行,第二个切片为表头+第3行,以此类推。




2、其他文档

支持设置默认切分、通用标识符切分、父子级标识符切分,设置后对非表格类的文档生效,知识库中除了 xlsx、xls、csv 以外的文档类型。
默认切分
产品上使用“切分模型”基于语义完整性进行切分。
通用标识符切分
系统按照用户自定义的规则将内容拆分为独立的片段,当用户输入问题后,系统使用用户问题检索切片内容,并将匹配的切片内容召回给到大模型用于答案生成。切片用于知识检索和大模型召回使用
标识符:系统将按照设置的标识符做文档切分,可以自定义设置***、###等符号,切分的标识符不在切片中展示。
切分最大长度:每个切片的最大长度,如按照标识符切分的片段超过设置的最大长度,将按照最大长度切分成多个片段,最大长度不超过4800字符。
切分重叠长度:设置切片之间重叠部分的字符长度,可以保留不同切片之间的语义关系,当实际切片长度超过设置的“切片最大长度”,系统切分的片段按照此设置生效。建议设置切分最大长度的10%作为切分重叠长度,最高可设置为“切片最大长度”的25%。



父子级标识符切分
系统按照用户自定义的规则将内容拆分为父级切片和子级切片,当用户输入问题后,系统使用用户问题检索子级切片内容,并将匹配的子级切片对应的父级切片召回给到大模型用于答案生成。子级切片用于知识检索、父级切片大模型召回使用

子级切片中设置的切片最大长度不能超过父级最大长度,且最大可设置1500字符。
子级切片与父级切片属于一对一或者多对一的关系,先将文档拆分为多个父级切片,再将父级切片拆分为1个或多个子级切片。




3、切分内表格

支持设置文档中表格的切片格式,包括 Markdown 格式和 HTML 格式,默认值为 Markdown 格式。对文档中的表格内容或表格文档中的内容生效。
Markdown 格式效果更好,HTML 格式消耗 token 较少。
说明:
切分的片段支持在解析切分干预功能中查看,详情参见 解析切分干预