使用文档AI处理器从PDF (英语、德语、意大利语)中提取文本非常好,但有时OCR不匹配。特别是在“单词”不是字典中的单词,而是包含字母和数字的部分数字有问题的情况下(主要是O0L1-5S)。有没有办法告诉文档AI使用PDF中包含的文本(作为文本)。对于我的知识文档,AI使用PDF页面的图像来对内容进行ocr。
是否有任何标志可自定义文档AI以使用文本版本或任何其他想法?我需要使用文档AI,因为我希望以正确的方式提取文本的结构。
发布于 2022-08-02 20:36:27
对于文件AI OCR处理器,没有任何可以输入的参数会影响模型生成的输出。如果发现某些字符/单词被错误识别,则可以通过后置处理或对支持的处理器使用人在环(HITL)来处理。
目前还没有一个功能可以使用PDF的预置文本(Document确实使用PDF的图像来执行OCR),但您可以要求Google帐户管理器(如果有)与产品团队联系,讨论选项。
如果您目前没有Google,您可以与联系我们页面的销售团队联系
https://stackoverflow.com/questions/68255146
复制相似问题