数据与信息来源:《腾讯云智能体开发平台-非结构化文档精准解析》产品宣讲材料
主讲人: 韦昭南
一、 产品定位与核心亮点
技术定义:
腾讯云智能体开发平台文档解析系统,是基于自研OCR解析大模型(DocLM)与多模态大模型(MLLM)构建的底层数据预处理组件。其核心机制是将非结构化、复杂排版的图文混排文档,转化为适合大模型检索与问答的结构化数据(Markdown/JSON/HTML)。
商业差异化卖点:
区别于传统OCR技术识别精度低、元素易丢失的局限,该系统通过“多阶段定位-分类识别-整合”的工程解析管线,解决了无明显边界图形组合的重叠、错位问题。平台搭载了业内首个语义切分大模型,彻底解决了传统文档切分易截断语义的通病,从根本上提升了端到端的大模型检索准确度。
二、 产品应用场景
本系统主要面向大模型开发者、金融机构、法律与科研单位。
在实际业务场景中,上述受众在构建企业级知识库或优化LLM模型底座时,通常面临以下痛点:
- 复杂版面阅读困难: 企业文档包含横向/纵向多栏、图表注群组、图表文环绕、跨栏/跨页段落等复杂排版。
- 元素类型繁杂且不规范: 业务文档(如论文、说明书、试卷、研报)中混杂着少线/无线表格、嵌套段落内的图像与公式,传统技术无法准确定位版面元素的位置和正确阅读顺序。
- 语义碎片化: 将文档喂给大模型时,常规的粗暴切分会导致段落语义断裂,使大模型无法输出连贯准确的回答。
三、 应用框架和功能介绍
1. 功能框架
系统采用三阶段级联处理架构:
- 阶段① 定位: 准确判定版面元素的位置、类型及阅读顺序。
- 阶段② 识别: 针对不同类型元素(文字、公式、表格、子图)调用针对性模型提取内容。
- 阶段③ 整合: 将各元素识别结果依据正确的阅读顺序整合成可编辑的Markdown文本。并支持章节树状结构返回,方便灵活扩展。
2. 硬核指标(量化数据)
- 支持的输入格式: PDF, PPT, EXCEL, DOCX, URL, HTML。
- 支持的输出格式: Markdown, JSON, HTML。
- 多级文档语义切分大模型指标:
- 一级片段:准确率 8x%,召回率 9x%。
- 二级片段:准确率 9x%,召回率 8x%。
- 性能提升: 对图文混排复杂文档的解析准确率较传统方案提升约 3x%。
(注:原文材料未提供API响应延迟、网络协议及TPS吞吐量等服务器运维指标)
3. 产品优势能力全量提取
- 全场景版面兼容: 支持单栏、双栏、三栏及混排版式解析;支持论文、书籍、试卷、PPT等多种场景。
- 全元素精准提取: 可准确定位并识别文字、图片、有线/无线表格、公式(段落内/表格内)、页眉、页脚等元信息。
- 阅读顺序高精度还原: 有效克服组合图形边界模糊问题,彻底解决传统解析中图片漏识、阅读顺序错乱的问题。
- 多模态图表综合理解(MLLM):
- 数据图表: 支持折线图、饼状图、柱状图、表格的K-V问答、图表转表格(Chart2Table)、数值计算及指定颜色/位置取值。
- 混合图表: 支持对包含多类数据的图表进行综合理解及对比性提问。
- 逻辑拓扑图解析: 支持对流程图、商业项目组织架构图、思维导图进行精调识别,可直接输出为结构化的
graph TD 代码。
- 多语种与OCR结构化提取: 支持长文本结构化信息提取(包括门头、曲文、监控拍摄时间截取等)。
- 多级语义切分: 采用层级切分方式输出(包含一级标题、二级标题及对应片段),保障大模型问答片段的语义完整性。
4. 荣誉背书
- 材料明确指出,其自研多模态大模型在支持文档中多种元素类型的解析效果上“处于行业领先地位”。(注:原文未列出具体奖项名称)
四、 典型案例
案例一
1、背景: 某头部大模型公司,其主要产品为一款长文本处理能力极强的AI对话类产品。在金融、法律科研等领域的应用中,遇到用户上传的文档包含大量数学公式和表达式,这些公式符号复杂多样、布局不规则,对文档解析能力要求极高。
2、解决方案: 接入腾讯云文档解析方案,利用其多阶段版面分析与强大的子元素识别能力处理原文档。
3、成效: 复杂公式解析成功率达到 9x%。
案例二
1、背景: 某LLM大模型底座面临预训练优化需求,但其需要处理的文档类型多样,包含大量复杂的图文样式与公式类型数据。
2、解决方案: 利用腾讯云文档解析能力,对各类长文档中的复杂元素进行识别并解析。
3、成效: 成功生成了丰富的结构化语料,有效帮助并支撑了该LLM模型底座的预训练优化工作。