有奖捉虫:办公协同&微信生态&物联网文档专题 HOT
文档中心 > TI-ONE 训练平台 > 最佳实践 > 使用自动学习构建模型-OCR 票据识别

操作背景

OCR智能结构化模型支持各类表单、票据、证件、单据等结构化信息提取,助力客户进行纸质表单关键字段的自动化录入,有效提升业务流程效率和录入信息准确度。
TI-ONE 的自动学习模块内置了OCR建模场景,为用户提供了一站式的从模型构建、模型效果评测、服务测试、服务发布的全流程服务,且产品功能简单易上手。

前提条件

完成 TI-ONE 服务注册与开通,请参考 账号和权限说明
开通 对象存储 COS 服务并完成 存储桶创建
使用按量计费类型资源会预先冻结所选配置2个小时的使用费用,若您的现金账户余额不足,请先进行充值。

使用自动学习进行排队单号识别

任务描述

日常生活中每家银行的排队等候单的版式都不同,所以当需要智能提取排队单中的“银行名称、主办业务、排队单号”字段信息时,需要针对每家银行的特定版式进行定制训练,以此提升 OCR 模型识别排队单的准确率。
本示例 demo 文档采用的结构化识别任务是:提取下面图片中的指定字段:
标题:腾讯云智能结构化示例
key 值“您的主办业务”对应的 value 值“储蓄业务”
key 值“排队号码”对应的 value 值“D1204”



任务流程总述

数据中心-数据集管理,导入未标注的训练数据集和评测数据集
数据中心-数据标注,对训练数据、评测数据进行智能结构化标注
自动学习-立即开始,配置启动一个智能结构化的训练任务
自动学习-任务管理,管理已有的训练任务,训练完成后,对模型效果进行评测
下面开始详细介绍操作步骤。

步骤1:导入训练数据集和测试数据集

进入数据中心 > 数据集管理,单击导入数据集按钮,配置导入信息,选择“数据集类型”为“图片”,将本次任务的训练数据集和评测数据集分别导入到 TI 平台上。

数据集导入成功后,可点击数据集名称进入查看数据集详情。



步骤2: 标注训练、评测数据集

进入 数据中心 > 数据标注,单击新建标注任务按钮,配置任务信息,选择标注场景为“图片-OCR-智能结构化”类型。建议打开“启动辅助标注”的按钮,可提高您的人工标注效率。

在标注过程中,您可选择标准模式进行快速标注,选择矩形标注工具,在图片上框选出指定字段的文字区域。以下为标注示例:

标注完成后,点击作业台右上角提交按钮。提交成功后,您可返回 数据中心 > 数据集管理 页面,单击对应的数据集名称,再次查看数据集详情,单击已标注的图片全屏查看,可快速预览标注结果是否有误。



步骤3:启动自动学习训练任务

进入自动学习 > 立即开始,选择建模场景 OCR-智能结构化,单击新建任务

单击后进入新建任务页面,用户需在此填写本次任务的任务名称、训练数据、训练模型配置及训练资源配置等信息。
1. 填写基本信息:



2. 填写数据配置:选择提前标注准备好的训练数据集和评测数据集


3. 填写模型配置:由于排队单号图片是机器打印,所以此处“使用场景”可选择“通用印刷”


4. 填写资源配置,可按需选择按量计费或包年包月训练模式,建议使用V100卡训练,确认后单击下一步
单击下一步后,进入模型训练页面
如您在单击下一步后离开训练模型页面,可至自动学习 > 任务管理列表页重新找到该任务。

步骤4:模型训练中

模型训练页,可以查看模型的运行状态、训练进度及训练日志详情。页面展示信息如下:
1. 训练状态


已训练时长:展示模型训练任务已经运行的时长。
最长训练时长:为本任务在配置任务页所设置的值,本例中为2小时。
训练进度:展示模型训练任务进度及训练任务当前所处阶段。如果您不再需要本次训练任务,可以单击停止训练按钮。如果训练意外中断,可单击重启按钮。
2. 训练详情 训练日志:展示模型训练过程中产生的日志详情,支持自动刷新及检索分析。



步骤5:模型效果评测

模型训练完成后,模型评测页面提供基于测试集的效果评测信息。包含模型评测任务基本信息(如评测时长、评测图片数量、badcase 数量)、整体指标(查看整体、字段级的精确率和召回率)。
1. 查看模型评测的基本信息,包含测试集、评测时长、评测图片数量、badcase 数量等。

当您发现模型评测效果不佳时,可点击badcase图片进行详情查看,分析当前模型还无法准确识别的字段类型及原因,如:
某字段预测错误是由于训练集中对应字段的图片标注不准确导致的,则可以重新修改图片的标注结果;
训练集中未出现过类似字段导致模型没有识别该字段的能力,则可将该评测图片加入训练集中重新训练模型等。
2. 查看模型整体指标,包含各字段的精确率、召回率。


精确率:表示预测结果为正类的样本中,真正的正样本比例。
召回率:实际图片类别被检测到的比率。

步骤6:模型服务发布

1. 模型评测结束后,可单击下一步,进入模型发布页面,发布支持两种模式:
服务测试:发布为一个快速测试服务,提供前端页面的形式供用户测试预演服务正式上线后的接口调用返回;
正式发布:发布为一个正式的模型服务,可供外部接口调用。
2. 发布为一个快速服务测试后,支持用户通过可视化前端页面上传一张图片并得到预测的OCR结构化结果:


服务测试:服务测试区域,您可单击点击上传按钮,上传新的测试图片,查看模型的预测结果。可根据需要选择:
输出图中全部 key-value:预测服务推理得到的该图片中的所有 key/value 字段;
标注的 key:如本次任务中的指定字段“标题、您的主办业务、排队号码”;
自定义输入key:如本次任务中,可自定义要求服务仅输出 key 为“您的主办业务”的信息。