首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >图像识别:一个框和随机放置的文本

图像识别:一个框和随机放置的文本
EN

Stack Overflow用户
提问于 2009-10-25 22:43:07
回答 3查看 1K关注 0票数 1

我想知道有没有人能给我一些图像记录软件包的指点,帮助我识别“文本”(不是OCR,只是看起来像文本的东西)和一个黑盒子边框。因此,假设:

代码语言:javascript
运行
复制
text
+----------+
|          |
|   text1  |
|          |
|          |
+----------+
     text

我如何识别“文本”框是文本,以及text1是否在框内?

很抱歉这个模糊的问题..。我不知道从何说起。顺便说一句,这不是家庭作业。

EN

回答 3

Stack Overflow用户

回答已采纳

发布于 2009-10-25 22:54:14

这是我们感兴趣的。我假设你的输入是一个有效的位图-一个矩形的像素矩阵。第一个问题是它是否与轴对齐-如果它被扫描过,可能就不是。你可能需要去偏斜算法(虽然已经过时了,但这是一个有用的开始:http://www.eecs.berkeley.edu/~fateman/kathey/node11.html)

经典的直线检测是霍夫变换(http://en.wikipedia.org/wiki/Hough_transform),尽管我们目前的合作者在简单的盒子上做得比这更好,并将像素投影到不同的视点-类似于断层扫描。旋转图像并计算投影线上点的密度/直方图。对于给出清晰信号的简单盒子。

对于文本,我怀疑你要么有一组可能的字体,要么使用机器学习。在后者中,你必须设计特征,然后选择一系列图像,这些图像被人类分类为文本和非文本。你的算法(有很多,神经网络,最大熵,等等)然后针对这些进行训练。

像素映射的质量有很大的不同。20年前的文档,比通过绘图程序创建并转储为PDF的文档的位图要难得多(当然,如果您能解释PDF中的文本,这将有很大帮助)。

票数 2
EN

Stack Overflow用户

发布于 2009-10-25 22:47:38

您可以对检测框应用任何边界检测算法。由于文本的颜色与背景的颜色不同,您甚至可以使用线性搜索来找到“文本”的黑色像素。我可能错了,很抱歉。

票数 1
EN

Stack Overflow用户

发布于 2009-10-25 23:23:13

一个非常简单的算法是从左到右和从上到下扫描,寻找组成盒子左上角的三个黑色像素(然后继续扫描组成匹配右下角的三个像素)。一旦您以这种方式识别了图像中的每个方框,您就可以扫描图像的内部部分,并假设任何非白色像素都意味着方框中有一些文本。当然,这不会区分框中的文本和图像,但这将是一个困难得多的问题。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/1621080

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档