首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >DeepSeek鬼才创举,OCR是啥?腾讯是怎么做的?

DeepSeek鬼才创举,OCR是啥?腾讯是怎么做的?

作者头像
腾讯云开发者
发布2025-10-24 14:55:21
发布2025-10-24 14:55:21
1840
举报

DeepSeek最新发布了一个参数 3B规模的视觉压缩OCR模型,论文《DeepSeek-OCR: Contexts Optical Compression》,提出利用视觉模态压缩长文本上下文的新方法。

该模型由DeepEncoder与DeepSeek3B-MoE组成,可将文本信息映射为二维图像并高效解码,实现10倍压缩下97%识别精度,20倍压缩仍保持约60%。

但很多同学其实并不了解,OCR技术到底是什么。本文将从这个 3B模型的发布入手,为你一步步揭开OCR的神秘面纱。

关注腾讯云开发者,一手技术干货提前解锁👇

00

DeepSeek OCR核心信息总结

根据《DeepSeek-OCR: Contexts Optical Compression》这篇论文,最新 3B 模型的核心信息总结如下:

  1. DeepSeek-OCR模型架构:该模型由两大部分组成——DeepEncoder和DeepSeek3B-MoE解码器。DeepEncoder专门设计用于高分辨率输入时,保持低激活并实现高压缩比。实验结果显示,DeepSeek-OCR能够在10倍压缩率下实现97%的OCR解码精度,在20倍压缩率时精度仍能保持在约60%。
  2. 视觉-文本压缩能力:DeepSeek-OCR能够有效压缩文本信息,尤其在历史文本或长文档的处理上展示了巨大潜力。通过压缩视觉令牌(vision tokens),模型能够在处理大量文本时显著减少计算资源的需求。
  3. DeepEncoder的创新设计:DeepEncoder采用了窗口注意力和全局注意力相结合的方式,并引入了一个16倍卷积压缩模块,有效减少了视觉令牌的数量,同时确保了处理高分辨率图像时的激活内存控制。
  4. 多分辨率支持:为了处理不同尺寸的图像,DeepSeek-OCR支持多种分辨率模式,包括静态和动态分辨率模式。这种设计提高了模型的灵活性和实用性,适应了不同应用场景的需求。
  5. 性能表现:在OmniDocBench基准测试中,DeepSeek-OCR仅用100个视觉令牌就超过了GOT-OCR2.0模型,显示出其在实际文档解析任务中的强大性能。即便在高达7000个视觉令牌的情况下,DeepSeek-OCR仍表现出优于许多现有OCR模型的效果。

从行业维度看,这个模型的最大意义和价值体现在以下几个方面:

  1. 高效的长文档处理:DeepSeek-OCR通过光学压缩技术,能够高效处理长文本,特别是在内存和计算资源有限的情况下,依然能够保持较高的精度。这对于大规模文档处理、历史文献的数字化及长期上下文的保留等领域具有重要应用价值。
  2. 为大模型提供训练数据:DeepSeek-OCR能够每天生成超过33百万页的训练数据,极大地助力大语言模型(LLM)和多模态模型(VLM)的预训练工作。
  3. 为其他大模型提供启示:该研究提供了关于视觉-文本压缩的深入分析,尤其是在如何优化视觉令牌分配和实现高效压缩方面。未来的大型语言模型可以借鉴这一方法,改进长文本处理能力,尤其是在内存管理和计算效率方面。

DeepSeek-OCR的成功表明,视觉模式可以作为一种有效的压缩手段,不仅减轻了LLM的计算负担,还能在多个领域中提供更为高效的上下文处理能力,尤其在多回合对话和长文本的处理上具有潜力。

该模型的光学压缩机制还启发了记忆遗忘的研究,通过逐渐减少历史文本的压缩比例,模拟人类记忆的衰退过程,这为未来LLM的记忆管理和长期上下文保持提供了新的思路。

正如DeepSeek-OCR所展示的,视觉-文本压缩技术不仅有效减轻了计算负担,还为长文本处理和多回合对话提供了强大的支持。与此同时,这一技术还启发了记忆遗忘机制的研究,揭示了如何在大模型中优化上下文管理。

腾讯在OCR大模型方面有着多年的积累沉淀,不断推进多模态理解,进一步提升文档解析的精准度与高效性。通过不断优化和创新,腾讯OCR正在为各行业的数字化转型提供更加智能、灵活的解决方案。

接下来,我们将分享腾讯多模态 OCR大模型的技术演进之路——没有最强OCR,只有无限进化!

01

技术演进

技术演进

技术路线

解决场景

OCR1.0

多阶段定制 OCR模型检测 + 识别 + 结构化

全文文字识别定制场景OCR 结构化提取

OCR2.0(DocLM-Base)

端到端OCR 大模型

单一模型支持检测、识别、结构化几类预定义好的任务

OCR3.0(DocLM-Large)

多模态OCR 模型

单一模型支持,Prompt 驱动(个性化需求)开放式任务,各类复杂场景识别、结构化提取

1.1 OCR 1.0:多阶段技术方案

在深入探讨OCR大模型之前,先回顾一下传统OCR技术的典型流程PPL。

典型OCR流程由文本检测模块、文字角度预测及扭曲矫正模块、文字识别模块、信息提取模块组成,阶段较多,且每个模块都具有一些瓶颈。

  • 文本检测模块:在多行文字套打场景、非规则形状场景以及大小字混合场景中,容易错检、漏检。
  • 角度预测及扭曲矫正模块:在多角度文本混合时易错分。此外,扭曲矫正通常只适用于特定的文本排列模式,如曲线文本。
  • 识别模块:文字重叠、生僻字以及低质量图像时,由于无法基于整图信息结合上下文推测,这一模块的识别能力受限。
  • 信息提取(结构化)模块:该模块通常基于复杂的规则或语义方案,泛化能力较弱,定制工作量大,且扩展性差。

1.2 OCR 2.0:端到端 OCR 大模型

由于后续模块难以修正前置模块的错误,这导致了错误的累积,使得在处理难度较高的场景时难以获得理想的效果。为了解决这些问题,并提高模型的泛化能力,腾讯优图实验室在 2022 年提出OCR大模型的方案,技术文章被计算机视觉顶会 ICCV 2023 录用。

对于OCR大模型,我们提出了以下三个核心目标:

  1. 端到端解决方案:通过一个统一的模型解决OCR中的链路问题,克服多阶段处理的瓶颈;
  2. 智能化:构建具有更强泛化能力的模型,实现单一模型并支持多种任务,能够有效处理 OCR 识别、KV 结构化提取等任务;
  3. 高效、高精度:OCR 大模型不仅在效果上优于原有多阶段技术方案,通过极致的性能优化,在推理耗时上也具备非常强的技术优势,单 Token 平均耗时低于 1ms。

腾讯优图 OCR 大模型(DocLM-Base)

KV 结构化示例

1.3 OCR 3.0:多模态 OCR 大模型

常规结构化任务是基于场景或者版式做的定制处理,成本很高。腾讯云OCR文档抽取(基础版),将结构化抽取任务抽象成从图像到结构化抽取文本的多模态翻译任务,解决了常规 K:V 场景的结构化抽取。 但是实际业务还会面临更复杂的情况,包括:多页文档处理、文档多版式需要按照定义的规则输出(同个字段在名称上有较多不同形式的表达)、表格形式提取等,需要多模态大模型的通用图像理解能力。

特别是个性化需求:每个用户对于 OCR 有着自己独特的业务诉求,例如同样是表格,有用户希望按照结构化 KV 输出、Excel 输出、Markdown 输出等等;或者用户希望按照所提供的样例和自定义提取规则进行输出,这需要多模态大模型的Prompt理解能力。

02

领域进展

以 GPT-4o,Mini-GPT4、 LLAVA等为代表;该类模型通过超大规模的视觉语言预训练任务,使得模型具备比较好的图像感知及意图理解能力,这些模型的典型结构为:

图片摘自 LLAVA(https://arxiv.org/pdf/2304.08485 )

实现流程:在原生纯文本大模型的基础上,将图像提取视觉特征(图像 Token)作为额外输出。

部分模型实测也具备一定的OCR识别能力,但工业实际应用时发现存在三个主要问题:

  • 精度较低,识字能力偏弱,在常规任务上低于传统OCR模型的表现;
  • 场景受限:仅适用于小分辨率的清晰印刷场景,同时输出形式上存在较大的不确定性;
  • 成本高:推理成本为常规OCR模型的数百倍,不适应于高频的OCR任务。

03

技术要点

3.1 腾讯优图 OCR 大模型技术演进路线

腾讯优图实验室对于大规模预训练OCR 模型的探索始于 2019 年,目前的 OCR 大模型属于第五代大规模预训练模型(DocLM v5)。

3.2 高分辨率图像处理

OCR场景分辨率通常较高,部分图像可达到 4K。常规视觉多模态模型的处理尺寸为 224*224,或者 448*448,无法满足 OCR 需求。

业界也有出现一些处理方案,包括:

1)通过对于大分辨率划分成一些预先定义好的栅格,再针对每个栅格进行视觉编码和融合。

图摘自UReaderhttps://mm-chatgpt.oss-cn-zhangjiakou.aliyuncs.com/mplug_owl_demo/released_checkpoint/UReader_Arxiv.pdf

图摘自 InternVL(https://arxiv.org/pdf/2404.16821 )

2)或者是对于图像按照转换为动态数量的 tokens。

以上方法可以一定程度上解决大分辨率的问题,但是随之而来的是会导致输入序列特别长,常规 4K 分辨率图像可以达到上万个视觉 Token, 导致模型推理效率的大幅下降以及对于GPU 显存的高需求。

基于对文档类场景的观察,文档图像并非所有的视觉 Token 都具有价值,与问题 Prompt 相关的视觉 Token 一般只有 5% 或者更低,因此有较大幅度的空间可以压缩视觉表达,我们提出内容感知的视觉过滤机制,将与无关视觉信息过滤。如下面这张图,原始图片表达是 9126 个 Token,经过过滤后仅有 330 Token 与问题相关,压缩了 95% 以上的内容。

图摘自腾讯优图自研论文:HRVDA: High-Resolution Visual Document Assistant

具体实现流程:图像分完 Patch 后(可理解为将大的图片切分成非常多的小图片)通过一个可插拔的文字内容感知模块过滤非文字图像块得到裁剪后 Token。 裁剪后的Token与指令特征融合,进一步过滤掉与指令无关的标记。最终,精简后的视觉标记和指令被输入到LLM中,生成相应的响应。总体对于视觉 Token 的过滤平均可以达到 90% 以上,大幅缩减了耗时。

图摘自腾讯优图自研论文:HRVDA: High-Resolution Visual Document Assistant

可视化操作过程:可以发现,模型在不断将图像特征进行过滤,首先过滤掉非文字部分,然后过滤掉非语义相关部分,最终仅关注与问题相关的图像区域,大幅降低了图像序列长度对于模型效果效果的影响。基于此方案,OCR能力边界轻松从单一的图像处理扩展到了多图处理,适用于复杂多图(如国际发票中,通常具有附页)端到端处理。

3.3 文档场景细粒度感知

文档对象对比学习(DoCo),专为VDU(文档智能理解)的下游任务设计。DoCo利用辅助文档多模态编码器获取文档对象的特征,并将其与LVLM视觉编码器生成的视觉特征对齐,从而增强文本密集场景中的视觉表示。对比学习文档对象的视觉整体表示和多模态细粒度特征,可以帮助视觉编码器获取更有效的视觉线索,从而提升LVLMs对文本密集文档的理解。

此外,腾讯优图实验室团队还证明了DoCo作为一种即插即用的预训练方法,可以在不增加推理过程计算复杂度的情况下用于各种LVLMs的预训练。多个VDU基准上的大量实验结果表明,配备DoCo的LVLMs可以实现更优性能,并缩小VDU与通用视觉语言任务之间的差距。

图摘自腾讯优图自研文章 Enhancing Visual Document Understanding with Contrastive Learning in Large Visual-Language Models

常规多模态大模型在文档场景通常很难做到细粒度感知,表现为文字识别错误、理解偏差等情况,我们发现该问题的发生主要是文档视觉特征没有和文本文字、文本坐标框这类文档场景特有的多模态属性进行对齐导致的。

基于此,我们在训练阶段,将文档中的坐标信息、文字信息同时进行编码,并通过对比学习的方式与图像特征进行对齐,增强文档细粒度感知,使得大模型在密集文字场景也取得了比较好的效果。

从图表和文档问答的实际表现中可以看出,文档细粒度对比学习在回答精准度上相比于业界常用的 CLIP 技术方案,有比较好的提升。

04

文档智能

前文提到传统OCR技术与性能的局限性。

从行业视角看,在物流、出行、金融、零售、医疗、教育、保险等领域,OCR一直有着高频使用需求。而在处理非标准化票据单据、多页合同、复杂文档识别上,传统OCR的准确率往往难以满足业务实际要求,这些技术瓶颈导致企业仍需投入大量人力进行二次核验,严重制约着业务流程自动化进程。

基于腾讯优图多模态OCR大模型,我们正式推出了【文档智能】OCR新能力,打造新一代智能文档处理平台,实现各类文档的高精度识别、智能解析与结构化信息抽取。

几点优势总结:

  • 多模态融合解析:支持文本、图像、表格、版式等融合解析,突破传统OCR单模态解析局限。
  • 识别到推理能力跃升:支持"数据抽取→语义理解→业务推理"三级能力跨越,更好的适配复杂业务场景。
  • 基于百亿级参数架构,实现更高性能与识别精度:1)同等参数规模下处理速度行业领先,实现5ms/token的识别效率(平均单文档<2s);2)在固定卡证票据版式中,识别精度高达97%,在版式多变或中英文混排等复杂文档场景,也能保持95%以上的准确率。
  • 便捷易用:无需繁琐模型训练,开箱即用,支持API接入。

05

实测体验

1)复杂文档:对于字段名称理解并映射。

2)表格场景:表格可提取结构化及行列信息。

3)多页场景:可支持 5 页内文档信息提取,如国际发票、合同文件等。

4)Prompt自定义能力:提取固定 Key 内容,按照自定义需求从图中提取关键字段信息。

更多文字识别产品能力体验,请访问腾讯云OCR Demo官网:https://ocrdemo.cloud.tencent.com/

腾讯云OCR文档智能产品企业需求登记:

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-10-23,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 腾讯云开发者 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 00
  • 01
  • 02
  • 03
  • 04
  • 05
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档