文章/答案/技术大牛

发布

社区首页 >问答首页 >使用tesseract 2.04和Java获取文本位置

问使用tesseract 2.04和Java获取文本位置
EN

Stack Overflow用户

提问于 2011-12-06 03:00:01

回答 1查看 2.5K关注 0票数 3

我正在使用Tesseract 2.04在一些图像中执行OCR，现在我必须获得文本的精确位置。但是这个版本不会返回这个信息。

我需要这个来生成一个可搜索的pdf文件。我已经学习了如何在pdf的底层中盖章文本，但我需要位置来盖章这个文本。我的第一个想法是在pdf中执行ocr，获取文本和文本的位置，用iText api在pdf中盖章。

itext

ocr

tesseract

java

pdf

回答 1

Stack Overflow用户

回答已采纳

发布于 2017-07-18 17:53:59

在iText内部，我们也对光学字符识别进行了研究。这是可能的(使用Tesseract)。

工作流程：

使用iText
从pdf中提取所有图像使用tesseract坐标变换提取文本(以及坐标、字体等)(因为(canvas.beginLayer)
draw坐标系和Tesseract
apply坐标系不同)
将图层添加到pdf将此图层中的所有文本添加到正确的位置

你可以做更多的优化。以下是简短的建议列表：

baseline

correct mistakes

estimate color

estimate
- mistakes
- estimate color
- estimate

这不是一件容易的事情。但当然也有可能。

票数 6

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/8390413

复制

相似问题

问使用tesseract 2.04和Java获取文本位置
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问使用tesseract 2.04和Java获取文本位置EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问使用tesseract 2.04和Java获取文本位置
EN