问在PDF上使用包含文本的文档AI仍然包括文本错误
EN

Stack Overflow用户

提问于 2021-07-05 11:11:54

回答 1查看 151关注 0票数 0

使用文档AI处理器从PDF (英语、德语、意大利语)中提取文本非常好，但有时OCR不匹配。特别是在“单词”不是字典中的单词，而是包含字母和数字的部分数字有问题的情况下(主要是O0L1-5S)。有没有办法告诉文档AI使用PDF中包含的文本(作为文本)。对于我的知识文档，AI使用PDF页面的图像来对内容进行ocr。

是否有任何标志可自定义文档AI以使用文本版本或任何其他想法？我需要使用文档AI，因为我希望以正确的方式提取文本的结构。

pdf

cloud-document-ai

回答 1

Stack Overflow用户

发布于 2022-08-02 20:36:27

对于文件AI OCR处理器，没有任何可以输入的参数会影响模型生成的输出。如果发现某些字符/单词被错误识别，则可以通过后置处理或对支持的处理器使用人在环(HITL)来处理。

目前还没有一个功能可以使用PDF的预置文本(Document确实使用PDF的图像来执行OCR)，但您可以要求Google帐户管理器(如果有)与产品团队联系，讨论选项。

如果您目前没有Google，您可以与联系我们页面的销售团队联系

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/68255146

复制

相似问题

问在PDF上使用包含文本的文档AI仍然包括文本错误
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问在PDF上使用包含文本的文档AI仍然包括文本错误EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问在PDF上使用包含文本的文档AI仍然包括文本错误
EN