首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >使用tesseract 2.04和Java获取文本位置

使用tesseract 2.04和Java获取文本位置
EN

Stack Overflow用户
提问于 2011-12-06 03:00:01
回答 1查看 2.5K关注 0票数 3

我正在使用Tesseract 2.04在一些图像中执行OCR,现在我必须获得文本的精确位置。但是这个版本不会返回这个信息。

我需要这个来生成一个可搜索的pdf文件。我已经学习了如何在pdf的底层中盖章文本,但我需要位置来盖章这个文本。我的第一个想法是在pdf中执行ocr,获取文本和文本的位置,用iText api在pdf中盖章。

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2017-07-18 17:53:59

在iText内部,我们也对光学字符识别进行了研究。这是可能的(使用Tesseract)。

工作流程:

  1. 使用iText
  2. 从pdf中提取所有图像使用tesseract坐标变换提取文本(以及坐标、字体等)(因为(canvas.beginLayer)
  3. draw坐标系和Tesseract
  4. apply坐标系不同)
  5. 将图层添加到pdf将此图层中的所有文本添加到正确的位置

你可以做更多的优化。以下是简短的建议列表:

baseline

  • correct mistakes

  • estimate color

  • estimate
    • mistakes
    • estimate color
    • estimate

这不是一件容易的事情。但当然也有可能。

票数 6
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/8390413

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档