文章/答案/技术大牛

发布

社区首页 >问答首页 >Tesseract:指定文本区域

问Tesseract:指定文本区域
EN

Stack Overflow用户

提问于 2012-10-19 17:57:09

回答 2查看 19.2K关注 0票数 12

我正在使用tesseract-ocr-3.01扫描许多表单。表单都遵循一个模板，所以我已经知道文本的区域/矩形在哪里了。

在使用命令行工具时，有没有办法将这些区域传递给tesseract？

ocr

tesseract

回答 2

Stack Overflow用户

回答已采纳

发布于 2012-10-23 21:52:23

多亏了this thread，我找到了答案。

看起来tesseract支持uzn格式(在unvl测试中使用)。

在线程中：

使用参数"-psm 4“调用tesseract，并使用与图像相同的名称重命名uzn文件。

示例：如果我们有C:\input.tif和C:\input.uzn，我们这样做：

tesseract -psm 4 C:\input.tif C:\output

票数 15

Stack Overflow用户

发布于 2012-10-19 18:14:09

这可能不是一个最佳的答案，但这里有：

我不确定命令行工具是否有指定文本区域的选项。

您可以做的是在另一个平台上使用Tesseract包装器(EmguCV内置了Tesseract )。因此，您获得扫描的图像，裁剪出文本区域，并将它们逐个提供给Tesseract。这样，您还可以避免Tesseract的页面布局分析中的任何错误。

例如：

Image<Gray,Byte> scannedImage = new Image<Gray,Byte>(path_to_scanned_image);
//assuming you know a text region
Image<Gray,Byte> textRegion = new Image(100,20);
scannedImage.ROI = new Rectangle(0,0,100,20);
scannedImage.copyTo(textRegion);
ocr.recognize(textRegion);

票数 3

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/12971778

复制

相似问题

问Tesseract:指定文本区域
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Tesseract:指定文本区域EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Tesseract:指定文本区域
EN