业内领先的文档解析能力
基于腾讯云智能体开发平台的 OCR 大模型解析引擎,识别准确率提升30%,具有以下优势:
独创多模态文档解析大模型:在算法上,基于腾讯优图实验室自研新一代多模态文档解析大模型,通过粗粒度生成元素的位置及顺序,并辅以内容生成赋予上下文的语义感知,可以解决各种复杂排版的问题,并在图文表混排的场景下更具优势。
智能版面分析:与传统的 OCR 文字识别不同,文档解析产品能够快速抽取文档的关键属性,支持对多栏、内容混排等复杂版式的文档进行精准解析,如论文、报告、书籍等文档中的标题、段落、图片、表格、公式、页眉、页脚等多种版面元素,并按照阅读顺序提取内容。
表格结构识别:针对传统表格识别难题,全新的表格结构识别模型在常规、有线、无线、少线、多表格、跨页表格等复杂场景下能对表格精准检测和内容识别,并做结构化复原。
高精度文本识别:能够准确识别中英文、繁体字、生僻字等多种类字体,即使是图片和扫描的 PDF 文档,也能够进行高精度识别。
Markdown 格式输出:支持将图片、PDF 文档转换为 Markdown 格式,这种轻量级的标记语言易于阅读和编写,非常适合大型模型训练和文档电子化。
业界首创基于 LLM 的多级语义切分模型
业界首创基于 LLM 的多级语义切分模型,通过语义理解的方式对文档进行切分,保障文档切分片段的语义完整性。
采用多级文档切分方式,将文档切分成适合检索和大模型问答的片段。
传统切分方式文档类型受限,缺乏通用性,且容易截断语义,语义模型的切分方式可有效解决该类型问题,端到端检索准确度大幅提升。
混合检索能力
支持向量检索,全文检索等多种混合检索策略,可根据业务场景灵活配置。
针对多行业(政务,汽车,文旅,教育,金融,制造等),多格式(PDF,Docx,Excel,MD,PPT等)多文档元素(普通文本,表格,图文,流程图等),端到端综合检索准确率达到90%。
基于 LLM 的 Embedding 模型
通过不同的 Instruction 区分Embedding 和生成任务,让LLM能同时在这两种任务上训练,从而得到一个同时具备文本表征和文本生成能力的模型。
借助LLM的多语言能力,同时支持多种语言的混合检索。