我有几百张图片格式如下。我想从header detector 2结果下面的表格中提取键值文本。即键同位素、值Tc99m、键峰、值140.3 kEV。显然,我更喜欢在bash脚本中执行此操作,而不是手动遍历每个图像。我听说过像imagemagick和ocr这样的工具,它们似乎能做我想做的事情。但是,我对这两个工具都没有经验。我应该如何处理这个问题,并且是可以解决的?
在运行ocr之前,我是否最好裁剪包含表格的大致区域,进行一些对比度调整以清除文本?
发布于 2014-09-12 18:19:41
我也有过非常相似的情况。我必须匹配工资报告中的员工标识号,而不是识别kEV。我的方法如下:用数字将图像裁剪到区域,对裁剪后的图像进行OCR,最后读取文本文件。我使用的工具:用于一般批处理作业和页面迭代的PHP脚本,用于将PDF转换为PNG的imagemagick,用于裁剪图像并将其保存为PNG的PHP GD库(请注意,imagemagick具有支持裁剪的命令行),以及最后用于OCR文本的Tesseract。我发现,如果图像是黑白和计算机生成的,那么Tesseract是相当可靠的,当然,前提是它是高分辨率的。在我的例子中,单个数字大约是11x18像素。
显然,你应该知道如何使用IM (http://www.imagemagick.org/Usage/crop/)裁剪图像,以及如何自动调平它(http://fmwconcepts.com/imagemagick/autolevel/index.php还没有尝试过)。以下是初学者的裁剪示例。然而,我相信你需要更大的分辨率。同时,避免将表格边缘传递给OCR。
convert yrhxY.png -crop 44x12+146+204 -negate output.png
最后回答你的问题:是的-首先裁剪,然后OCR。
https://stackoverflow.com/questions/25804980
复制相似问题