腾讯云智能体开发平台：非结构化文档精准解析技术概要

原创

gawain2048

发布于 2026-05-30 01:33:38

760

数据与信息来源：《腾讯云智能体开发平台-非结构化文档精准解析》产品宣讲材料

主讲人： 韦昭南

一、产品定位与核心亮点

技术定义：

腾讯云智能体开发平台文档解析系统，是基于自研OCR解析大模型（DocLM）与多模态大模型（MLLM）构建的底层数据预处理组件。其核心机制是将非结构化、复杂排版的图文混排文档，转化为适合大模型检索与问答的结构化数据（Markdown/JSON/HTML）。

商业差异化卖点：

区别于传统OCR技术识别精度低、元素易丢失的局限，该系统通过“多阶段定位-分类识别-整合”的工程解析管线，解决了无明显边界图形组合的重叠、错位问题。平台搭载了业内首个语义切分大模型，彻底解决了传统文档切分易截断语义的通病，从根本上提升了端到端的大模型检索准确度。

二、产品应用场景

本系统主要面向大模型开发者、金融机构、法律与科研单位。

在实际业务场景中，上述受众在构建企业级知识库或优化LLM模型底座时，通常面临以下痛点：

复杂版面阅读困难： 企业文档包含横向/纵向多栏、图表注群组、图表文环绕、跨栏/跨页段落等复杂排版。
元素类型繁杂且不规范： 业务文档（如论文、说明书、试卷、研报）中混杂着少线/无线表格、嵌套段落内的图像与公式，传统技术无法准确定位版面元素的位置和正确阅读顺序。
语义碎片化： 将文档喂给大模型时，常规的粗暴切分会导致段落语义断裂，使大模型无法输出连贯准确的回答。

三、应用框架和功能介绍

1. 功能框架

系统采用三阶段级联处理架构：

阶段① 定位： 准确判定版面元素的位置、类型及阅读顺序。
阶段② 识别： 针对不同类型元素（文字、公式、表格、子图）调用针对性模型提取内容。
阶段③ 整合： 将各元素识别结果依据正确的阅读顺序整合成可编辑的Markdown文本。并支持章节树状结构返回，方便灵活扩展。

2. 硬核指标（量化数据）

支持的输入格式： PDF, PPT, EXCEL, DOCX, URL, HTML。
支持的输出格式： Markdown, JSON, HTML。
多级文档语义切分大模型指标：
- 一级片段：准确率 8x%，召回率 9x%。
- 二级片段：准确率 9x%，召回率 8x%。
性能提升： 对图文混排复杂文档的解析准确率较传统方案提升约 3x%。 (注：原文材料未提供API响应延迟、网络协议及TPS吞吐量等服务器运维指标)

3. 产品优势能力全量提取

全场景版面兼容： 支持单栏、双栏、三栏及混排版式解析；支持论文、书籍、试卷、PPT等多种场景。
全元素精准提取： 可准确定位并识别文字、图片、有线/无线表格、公式（段落内/表格内）、页眉、页脚等元信息。
阅读顺序高精度还原： 有效克服组合图形边界模糊问题，彻底解决传统解析中图片漏识、阅读顺序错乱的问题。
多模态图表综合理解（MLLM）：
- 数据图表： 支持折线图、饼状图、柱状图、表格的K-V问答、图表转表格（Chart2Table）、数值计算及指定颜色/位置取值。
- 混合图表： 支持对包含多类数据的图表进行综合理解及对比性提问。
- 逻辑拓扑图解析： 支持对流程图、商业项目组织架构图、思维导图进行精调识别，可直接输出为结构化的 graph TD 代码。
多语种与OCR结构化提取： 支持长文本结构化信息提取（包括门头、曲文、监控拍摄时间截取等）。
多级语义切分： 采用层级切分方式输出（包含一级标题、二级标题及对应片段），保障大模型问答片段的语义完整性。

4. 荣誉背书

材料明确指出，其自研多模态大模型在支持文档中多种元素类型的解析效果上“处于行业领先地位”。(注：原文未列出具体奖项名称)

四、典型案例

案例一

1、背景： 某头部大模型公司，其主要产品为一款长文本处理能力极强的AI对话类产品。在金融、法律科研等领域的应用中，遇到用户上传的文档包含大量数学公式和表达式，这些公式符号复杂多样、布局不规则，对文档解析能力要求极高。

2、解决方案： 接入腾讯云文档解析方案，利用其多阶段版面分析与强大的子元素识别能力处理原文档。

3、成效： 复杂公式解析成功率达到 9x%。

案例二

1、背景： 某LLM大模型底座面临预训练优化需求，但其需要处理的文档类型多样，包含大量复杂的图文样式与公式类型数据。

2、解决方案： 利用腾讯云文档解析能力，对各类长文档中的复杂元素进行识别并解析。

3、成效： 成功生成了丰富的结构化语料，有效帮助并支撑了该LLM模型底座的预训练优化工作。

原创声明：本文系作者授权腾讯云开发者社区发表，未经许可，不得转载。

如有侵权，请联系 cloudcommunity@tencent.com 删除。

腾讯云

原创声明：本文系作者授权腾讯云开发者社区发表，未经许可，不得转载。

如有侵权，请联系 cloudcommunity@tencent.com 删除。

登录后参与评论

0 条评论

热度