适用于票据、护照、发票等多种文档类型,支持字段与表格识别。 项目介绍随着 AI 大模型时代的到来,传统 OCR + LLM 的繁琐流程经常需要人工调优、模板设定和外部 API 支持。...该项目同时也是 Intelligent Document Processing(IDP)排行榜的组成部分,覆盖 KIE、OCR、表格识别、文档分类、VQA、长文档处理等任务。...核心功能多文档多页支持支持 PNG/JPG/PDF 等多格式文档,能一次处理多页文档,全流程 API 内置支持——无需分割文档、合并结果,自动完成。...下表对核心组件做总结:模块技术/组件作用与特点图像输入PIL、OpenCV、PDF 解析库支持图片与 PDF 自动分页加载VLM 驱动Qwen-2.5-VL 系列等提供端到端理解,无 OCR 模块依赖字段抽取...pip install docextpython -m docext.app.app启动后打开 Web 页面,可看到以下典型界面模块:文档上传区域:拖拽或选择 PDF/图片后,自动触发处理,可批量上传;
Wondershare PDFelement 9 Pro Mac图片PDFelement 9 Mac版绝妙功能PDF编辑器PDFelement彻底改变了您处理 PDF 文档的方式,旨在实现更智能、更快速的...文本字段文本字段可用于捕获各种高度可变的信息,例如地址、名称、描述和此类非结构化数据类型。它们也可以用作密码字段,其中用户的输入将显示为一串星号,通常旁边有一个显示/隐藏选项。...这种类型的字段通常接受任何用户输入,包括数字、字母、字符和字母数字。它提供了几个重要的优点,例如多行文本、拼写检查和富文本支持。另一个重要功能是能够限制输入的字符数,包括下端和上端。...此外,comb 属性允许表单将文本输入均匀地分布在指定的空间中。2. 复选框仔细想想,不起眼的复选框实际上是使用最广泛的表单字段类型之一。...在许多情况下,一旦填写、签署和提交表格,这也使得选择明确且具有法律约束力。默认情况下可以选中或取消选中复选框,其样式定义将用于填充复选框的标记。
用户可以创建 PDF 模板,添加交互式字段(如文本框、复选框、下拉菜单等),调整其属性,并将表单保存为可填写的 PDF 文件。...插入交互式字段并设置其属性:选择需要添加的交互式字段类型(如文本框、复选框等),并设置其属性。 保存为可填写的 PDF 文件:完成表单创建后,将文件保存为可填写的 PDF 格式。 2....使用方法如下: 打开电子表格:在 ONLYOFFICE 桌面编辑器中打开需要编辑的电子表格文件。 在单元格中输入 GETPIVOTDATA 函数: 用于从数据透视表中获取数据。...示例:=GETPIVOTDATA("销售额", A1, "季度", "Q1") 参数:数据字段、数据透视表单元格、字段名称、项目名称。...在单元格中输入 IMPORTRANGE 函数: 用于从另一个电子表格中导入数据。
支持上传PDF、Word或Excel格式的招标文件,自动提取项目基础信息、投标资格、技术与商务要求、评标办法等关键条款,并还原目录层级与跨页表格。...一、先把目标定义清楚如果只是让大模型“总结一份招标文件”,实现并不难;难的是把一份上百页的长文档稳定拆成可展示、可复用、可继续治理的结构化结果。...真正调用的不是form-data接口,而是TextIn的二进制流解析接口:POSThttps://api.textin.com/ai/service/v1/pdf_to_markdown请求头和请求体在代码里是这样组织的...七、输入、Prompt、输出必须一一对应要让这套架构可维护,至少要把三件事先对齐:1.模块输入是什么输入不是全文,而是某个模块命中的Markdown片段。...1.不是OCR文本加正则硬提纯文本加正则在字段非常固定时还可以用,但招标文件章节名称、段落顺序、表格表达方式都经常变化,规则一旦堆多,维护成本会非常高。
打开表格——以显示模式在表格中显示当前数据。 这通常不是表中的完整数据:记录的数量和列中的数据长度都受到限制,以提供可管理的显示。...文档—允许查看SQL错误代码列表和SQL保留字列表。 如果选择了一个表,则允许显示类文档(该表的类引用页)。选择命名空间所有SQL操作都会在特定名称空间中进行。...如果行列不包含数据(NULL),结果集将显示一个空白的表格单元格。 指定一个空字符串文本将显示一个HostVar_字段,其中包含一个空白的表格单元格。...Export选项忽略查询和结果切换,并始终只导出结果集数据(默认为:exportQuery.pdf)和行数(默认为:exportQueryMessages.pdf); 不包括查询文本、名称空间、时间戳和缓存的查询名称...只有包含该字符串的历史项才会包含在刷新后的列表中。 筛选器字符串可以是在SQL语句列中找到的字符串(比如表名),也可以是在执行时间列中找到的字符串(比如日期)。 过滤字符串不区分大小写。
假设我们需要构建模型从PDF格式的合同中抽取出甲方、乙方、违约条款等字段信息,看看机器是怎么一步步进行拆解的:首先看机器的输入数据。...PDF格式内部只是规定了每个字符或者线条应该在屏幕上什么位置,这些元素本身没有任何语义上的信息,在计算机看来这份文档其实只有字符以及其位置等简单信息,并没有人看渲染好的PDF文件的对齐、大小、重要性等更多信息...图片文档解析模型负责解析PDF协议,并且通过一定算法将文档结构化,也就是转成章节、表格、段落等文字流,再输入到字段抽取的模型。这两个模型是否足够简单并能落地呢?...图片对于字段抽取,有些字段比较简单,比如甲方、乙方,人眼就能看出结果,这些字段直接通过模型抽取问题不大;有些字段稍微复杂一些,比如合同总金额有时候是在文本中的,有时候是在表格里面的,人在看的时候也需要反应一下才能得到信息...这个名称构成的词典可能不全,所以不能只靠这个来匹配,但将这个“乙方专有名词”输入模型作为参考特征,是非常有用的。字段的重要关键信息的特征,指的是抽取的这个字段非常关键的上下文。
可识别营业执照图片上的字段信息(统一社会信用代码、公司名称、主体类型、法定代表人、注册资本、组成形式、成立日期、营业期限、经营范围等)时,支持复印件/翻拍件告警检测、有效期自动拼接、电子营业执照图片识别及非营业执照的营业类证件图片识别...支持图片Base64和URL两种输入方式,支持护照图片人像照片裁剪功能,支持80+国家/地区的可机读护照图片识别,同时支持复印件、翻拍、PS、反光、模糊、边框不完整等告警功能(仅国际站生效) TencentCloud...当用户需要从表格图片或PDF中识别常规表格、无线表格、多表格的内容,提取每个单元格的文字信息,或将表格图片识别结果导出为Excel文件时,应使用此技能。...支持识别发票图片中的发票代码、发票号码、开票日期、合计金额、校验码、税率、合计税额、价税合计、购买方/销售方信息、明细条目等全部字段,同时支持PDF格式发票图片识别。...当用户需要从图片或PDF中按自定义字段名称进行结构化信息抽取时,应使用此技能。支持自定义字段名称、字段类型(KV对或表格字段)和字段提示词,实现灵活的文档信息提取。
但不少人试下来发现,AI 生成的代码经常跑偏——接口字段对不上,业务逻辑直接搞反。问题往往不在模型本身,而在输入。...把一份带复杂排版、表格和图片的 PDF PRD 直接丢给 AI,它读到的很可能是一堆乱码。解决办法也直接:喂给 AI 之前,先把文档解析干净。...为什么 AI 在 PDF 面前容易翻车大模型的输入是纯文本。...MinerU 是上海人工智能实验室开源的文档解析工具,GitHub 56.9K+ Stars,在 OmniDocBench 综合评测中排名第一,其最强硬核能力就是能把复杂的 PDF 无损转成结构化的 Markdown...实测下来,直接丢 PDF 的话 AI 本身难以处理各种视觉分栏;有了 MCP 接入 MinerU 之后,生成的代码字段基本不会对错,连边缘流程都能按文档精确补全,这才是真正享受 Vibe Coding。
,告别传统报表显示格式单一的劣势,同时,生产的报表直接可以Web方式进行查看,可自动打印,可导出为Excel表格文件进行修改,可为企业生产报表的开发节省大量的时间。...添加按钮列表,默认名称为Report_1,点击右侧添加按钮添加要记录的变量。 添加 DateTime以及所需的变量,作为报表的字段。...03 表格关联数据 选中需要显示数据的表格,右键选择表达式: 选择字段 DateTime,表达式 = Fields!...DateTime.Value 在表格列选择右键,点击在右侧插入列,插入足够数据列 然后再添加所需要的数据字段 双击表格,输入每列字段的名称。...(7)可以导出Excel电子表格,pdf文件,word文档,MHYML文档,CSV文件便于备案,同时也可也自动打印。
这正是仅靠人工处理低效,而让大模型直接“硬读”全文也常会翻车的原因:文档过长会被截断,信息丢失;无法可靠解析扫描件、复杂表格和特殊版式;生成的总结常常笼统,无法提供可验证的原文引用。...1)更适合招标文件这种“复杂版式+表格+长文档”的解析能力 招标文件不是纯文本,是动辄几十页到几百页的长文档,而且是“文档版面理解”的集合:标题层级、目录结构、表格、页眉页脚、附件、扫描页…… TextIn...在「技能 / 插件」里添加:通用文档解析。...A)关键条款抽取 Prompt(建议输出 JSON,后续好渲染) 输入:解析得到的 markdown 输出:固定字段 JSON 你可以要求输出类似:项目信息:项目名称、招标编号、标段、预算/最高限价时间节点...它将专业文档理解能力转化为团队随时可用的数字资产,让关键信息提取、风险识别与响应规划,从此建立在结构清晰、引用确凿的基础之上。
表格处理:识别并提取表格数据为 DataFrame 3. 表单填充:使用 pypdf 填充 PDF 表单字段 4....文档合并:将多个 PDF 合并为一个文档 ## Examples ... 3.3 Frontmatter 字段详解 字段 必须 约束 说明 name ✅ 1-64 字符,小写字母 + 数字 + 连字符...name: pdf--processing # ❌ 不能连续连字符 description 字段的最佳实践: 好的描述应该同时说明做什么和什么时候用: # ✅ 好的描述 description:...、批注、格式保留 pdf[6] PDF 全套操作:文本提取、表格识别、表单填充、文档合并 pptx[7] PowerPoint 演示文稿创建编辑,支持布局模板、图表、自动生成幻灯片 xlsx[8] Excel...对 AI Agent 感兴趣的开发者 做 AI 产品想对接 Claude/Codex 的人 核心洞察: 如果你发现自己在多个对话中反复输入相同的 prompt,那就是创建 Skill 的信号。
因此,我们干脆直接对这些文档进行了完整的 OCR 识别。 表格序列化 在大型表格中,度量名称(横向表头)通常离纵向表头太远,削弱了语义连贯性。...此外,LLM 在处理大型表格时也很难将度量名称与表头对应起来,可能会返回错误的值。 表格序列化(Serialization of tables)成为了解决方案。...最初,我们以Markdown 格式向 LLM 输入表格,但后来改用 HTML 格式(这就是它派上用场的地方!)。...我们也有所有公司名称的列表(比赛开始时与 PDF 报告一同提供)。...在模棱两可的情况下,LLM 会尝试涵盖用户查询中所有隐含的含义,并添加一些澄清。
关键字段是文档中我们预先定义好、需要被提取出来的特定信息单元。例如:在发票中:发票号码、开具日期、供应商名称、总金额。在合同中:合同双方名称、生效日期、合同金额、终止条款。...系统的工作就是接收一份原始文档(可能是PDF、图片、Word等),并输出一个结构化的结果,如JSON或Excel表格,其中包含了这些关键字段及其对应的值。...文档结构解析:系统会分析文档的物理布局。它需要识别出哪些是标题,哪些是段落,哪些是表格,以及它们之间的相对位置关系。这就像系统在脑海中为文档绘制了一张“地图”。...第二阶段:关键信息的智能识别与定位这是整个文档抽取系统的“大脑”,负责在解析后的文本和布局中找到目标字段。...处理跨区域文本:有些字段的值可能分布在多行或多个单元格中(如商品清单),系统需要将它们正确地拼接起来。表格处理:专门解析表格结构,理解表头与数据的对应关系,确保提取出的信息不错位。
多数据源覆盖:不仅能抓取网页数据,还支持PDF、图片、文档等非网页格式的内容抓取,相当于“智能实习生”,可自动“阅读”并整理数据。...子页面深度抓取:AI可自动访问主页面中的每个链接,进入子页面提取关键信息,并将数据附加到原有表格的新列中,避免“打开20个标签页手动复制粘贴到Excel”的低效操作。...统一数据结构:可从不同网站、PDF、文档、图片中抓取数据,并自动整理为相同的数据结构,便于后续分析和使用。...点击AI网页爬虫,先选择数据源(当前页面、粘贴链接、文件图片),按当前页面,Thunderbit已经识别到Playground示例页面,之后选择爬虫模板,可使用AI推荐字段或者手动输入,这里点击AI推荐字段...AI推荐的字段输入完成后(可手动进行修改、删除等操作),点击进行抓取。 抓取页面过程中。 抓取完成,显示抓取结果行数。 打开结果表,可进行复制、下载(Excel、CSV、JSON)等操作。
其支持在线编辑各种类型的文档,包括PDF和可填写的表单等,让用户可以随时随地进行办公工作,无需受限于特定的办公环境。...通过这种集成,Moodle 用户能够直接在课程中创建和编辑文本文档、电子表格、演示文稿、表单和PDF。对于管理员来说,还可以限制 ONLYOFFICE 编辑器中的打印和下载功能。...当学生点击该活动名称或链接时,ONLYOFFICE 编辑器将会在浏览器中打开,他们可以直接在其中创建或编辑文档、查看 PDF 文件,或与其他用户进行实时协作。...在 Moodle 中使用ONLYOFFICE 协作办公文档 在将 ONLYOFFICE 集成到 Moodle 后,用户可以直接在平台内上传、新建并编辑文档、表格和幻灯片。...ONLYOFFICE 的集成保证了 PDF 文档的高质量渲染,使用户能够清晰地查看文档内容。 用户可以在 PDF 文档的任何位置添加批注和注释,以增强学习或工作的互动性。
在构建真实的 RAG(检索增强生成)应用时,解析文档以使信息可搜索是重要的一步。...在这篇博客中,我们将研究一个相当常见的用例,即 解析并导入一个包含文本、表格和图像的 PDF 文档。...高级流程在 Elastic 平台上部署 ELSER 模型创建一个 导入管道,该管道将为导入的分块创建嵌入。字段 text 将存储分块文本,text_embeddings 将存储嵌入。...在分区步骤中,我们指示 Unstructured 通过传入 pdf_infer_table_structure=True 并将分区策略设置为 hi_res 来推断表结构,自动识别文档的布局。...如果你想知道哪些单独的分区组成了一个块,你可以在 base-64 编码的 orig_elements 字段中找到它。在上面的示例中,我们使用了 Unstructured 的 API 服务。
引言在日常运营中,采购部门每周都要处理数百份来自不同供应商的报价文件。这些文件格式各异——有的是结构规整的Excel表格,有的是从ERP系统导出的CSV,还有不少是扫描后生成的PDF文档。...后来尝试了一些开源的OCR库,对印刷体PDF效果尚可,但对手写体、扫描件和带有复杂表格的文件几乎无能为力。我们也评估过一些商业OCR服务,但要么价格昂贵,要么在中文混合排版场景下准确率不理想。...经验之谈:在选择文档解析方案时,不要只看重字符识别准确率这个单一指标。在实际业务中,文档结构的理解能力、对格式变化的鲁棒性、以及自定义训练的可能性,这些因素往往更重要。...这种架构提高了系统的可维护性和可扩展性。4.2性能优化实践在系统上线初期,我们遇到了性能瓶颈。...QClaw智能文档处理能力集成到实际业务系统中掌握构建自动化数据处理流水线的完整方法论学习到大量前端(React)和后端(Node.js)结合的实际开发经验获得可复用的代码架构和最佳实践理解在供应链场景下处理非结构化数据的完整思路技术的价值在于解决实际问题
其核心工作流程可分为四个关键步骤:1.图像预处理与校正:输入:系统接收的可能是扫描件PDF、手机拍摄的照片或电子文档图片。图像可能存在倾斜、阴影、模糊、透视变形等问题。...2.关键区域定位与分割(关键一步):任务:注册证是高度结构化的文档,需要精准定位到特定的信息区块,如“注册人名称”、“注册证编号”、“产品名称”、“型号规格”、“批准日期”、“有效期至”等。...信息提取:将识别出的原始文本,根据其所在的位置和上下文语义,自动分类并映射到预设的结构化字段中。例如,定位在“注册人名称”标签右侧的文本,就会被提取并填入“注册人名称”的数据栏。...全字段结构化提取:不仅能识别文字,更能理解其语义,自动分类填充至数十个预设字段。多格式多场景适配:支持扫描件、拍照件、PDF、图片等多种格式输入,适应各种办公和移动场景。...批量处理与高效集成:支持海量证照的批量上传与自动处理,并提供标准的API接口,可轻松集成到ERP、SRM、CRM等各类企业系统中。
一种基于大语言模型与高精度光学字符识别技术深度融合的文档抽取技术应运而生,构建了一套能够理解文档语义、洞察逻辑结构的智能处理系统。它不仅仅是在“阅读”文档,更是在“理解”文档。...文档抽取技术通过“视觉-语义联合建模”,将文档的布局信息(如坐标、字体、段落层级)与文本语义融合输入大模型,实现对PDF、Word、扫描图像、网页截图等异构格式的统一处理,真正做到“一模型适配千种版式”...在文档比对中的应用场景基于上述高精度抽取能力,文档抽取系统可广泛应用于以下典型场景:1. 合同版本差异比对在法务或采购流程中,常需比对不同版本的合同草案。...系统可精准抽取财务指标(如营收、净利润、资产负债率),自动比对同一指标在不同文档中的数值是否一致,并生成差异报告。3. 政策文件合规性审查政府或监管机构发布的政策文件常存在更新迭代。...发票与订单信息核验在供应链管理中,文档抽取系统可同时解析供应商发票与内部采购订单,自动比对商品名称、数量、单价、税号等关键字段,实现“三单匹配”(订单、收货单、发票)的自动化,大幅降低财务对账成本。
对于存在多样化表格、混排内容、背景干扰、模糊、多语言混合等情况的图像难以准确地识别、分离出字符区域 ,导致识别错误率升高。 在识别能力上,传统 OCR 还缺乏灵活性,难以应对多样化的输入。...但是实际业务还会面临更复杂的情况,包括:多页文档处理、文档多版式需要按照定义的规则输出(同个字段在名称上有较多不同形式的表达)、表格形式提取等,需要多模态大模型的通用图像理解能力。...文档智能产品基于多模态OCR大模型的深度语义理解+结构化抽取技术,能够精准识别医疗文档中的关键字段(支持全国三甲医院200+版式模板),实现95%+的字段级识别准确率。...报告解析:检验报告、病历报告等文件关键字段提取解析(包括跨机构报告关键字段智能归一化输出 ); 医疗表格:支持复杂有线、无线表格字段信息精准抽取。...05、实测体验 1)复杂文档:对于字段名称理解并映射。 2)表格场景:表格可提取结构化及行列信息。 3)多页场景:可支持 5 页内文档信息提取,如国际发票、合同文件等。