我正在解决一个类似的问题。技术图纸是一个问题，因为OCR软件大多试图找到文本基线，而绘图工件(线条等)会阻碍这种方法。在您指定的图形中，相互接触的字符不多。因此，我建议将图像分解为连续的(黑色)像素，然后分别扫描这些像素。连续区域的高度还应指示连续区域是文本还是图形的一部分。要将图像分解为连续的像素，请使用泛洪填充算法，对于扫描的Tesseract来说，这项工作做得很好。

票数 1

Stack Overflow用户

发布于 2017-08-11 02:52:47

显然，我从来没有尝试过这个特定的任务，但是，如果图像真的像你展示给我的那样，我会从删除所有的垂直线和水平线开始。这很容易做到，只需为强度大于某个N值的所有像素设置一个宽度阈值，然后查看垂直于假设线方向的像素阈值数量。如果它看起来像一条线，就把它擦掉。

更优雅，也许更好的方法是对直线和圆进行hough变换，并以这种方式删除这些元素。

你也可以尝试一些基于FFT的过滤，但我不是很确定。

我从来没有用过OpenCV，但我猜它可以做我提到的事情。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/45621066

复制

相似问题

问从扫描的工程图纸中提取文本
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问从扫描的工程图纸中提取文本EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问从扫描的工程图纸中提取文本
EN