是否有OCR的行业标准输出格式?我似乎找不到任何被定义为行业标准的东西,我对OCR也不是很有经验,所以我也不知道是否有标准。
发布于 2013-06-05 08:38:33
没有这样一种格式,但有一些常用的实践和开放标准格式可以满足您的需求。这个问题就像是在问“烹调土豆的标准结果是什么”。土豆泥、薯条或烘焙食品(不知道这些例子来自哪里,我一定是饿了……)
此外,“行业标准”将取决于特定的行业。如果你在一个特定的垂直领域,那么一些格式将比其他格式更常见(几乎是标准格式)。例如:
下的-
一般来说,如果我回答你的问题,我不会错的,最常用的和业界接受的格式是: TXT,XML,PDF (几种风格)。每种技术都有独特的属性和特定的用途,但由于开放的标准,每种技术都可以被其他技术广泛使用。
从另一端处理它更好,这意味着通过“业务需求”思考数据将发生什么,以及需要在哪里吸收数据,应该准确地定义您希望从OCR输出中使用哪种交接格式。
发布于 2013-06-04 23:02:03
hOCR是一种开放标准,它定义了一种用于表示光学字符识别输出的数据格式。
发布于 2014-10-07 11:58:33
XIEO (http://xieo.info)使用名为CML (Clix Markup Language)的(Maya Software)专有格式,可有效地对页面、区域、行、文本框和相关信息进行编码。VisualText/NLP++ (在http://www.textanalysis.com上可用)有一个特殊的记号赋予器传递,用于“吸入”该格式并生成现成的解析树。然后,NLP++分析器可以在该初始解析树的基础上构建。
此工作流在XIEO已经使用了5年多,主要用于处理官方记录文档(地契、抵押贷款、法院书记员等)并从中提取信息。
在此工作流程中,用户可以清理OCRed文本,重新分区以修复光学字符识别错误和错误分区,并从文本中提取相关信息。
Amnon Meyer,文本分析国际公司amnon.meyers@textanalysis.com首席技术官
https://stackoverflow.com/questions/16907871
复制相似问题