首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

计算机视觉与AI技术分享——文档扫描(一)

1、背景与意义

随着高速计算机和大规模集成电路的发展,电子文档已成为现在文档保存与资料查询的首要选择。

Alt text|center

而当下仍然有海量纸质文档,为了便于查询与使用这些文档资料,我们迫切需要将这些纸质文档转换为电子文档。通常人为的将纸质文档转换为电子文档是一项繁重又繁琐的工作,为了解决这个问题 ,以图像处理和计算机视觉为主导的技术开始研究如何对文档自动的进行扫描,由此文档扫描技术便孕育而生。

文档扫描技术的出现,标志着图像处理由低、中级阶段进入了高级阶段,利用图像处理和计算机视觉技术,使我们在工作中查询调阅更加便捷,工作效率更高。

Alt text|center

2、文档扫描

通常对一幅文档图像进行扫描,需要多个算法的组合,才会达到我们满意的结果。下面分别介绍文档扫描的每个步骤。

2.1、校正色偏

对于光源强度不同、机器曝光时间不足,物体自身反射属性,往往会引起颜色偏差。例如下图所示:

Alt text|center

可以看到由于色偏效应,图中整体部分偏向了淡蓝色。

色偏校正的目的是将偏差的色彩(Hue、Saturation)调整为原始的色彩,除了经典的gray world算法,我们提出了一种新的色偏校正算法,算法的灵感来源于何恺明的《Single Image Haze Removal using Dark Channel Prior》这篇论文。接下来我们将gray world算法与我们提出的算法进行一个对比,对比结果如下所示:

Alt text|center

2.2、校正光照不均

由于拍摄时,光源位置、拍摄角度、闪光时间的不同,往往使拍摄出来的图像出现光照不均的晕轮效应(halo),为了提高后续扫描字符的正确性,有必要对图像进行光照均匀化。通常,可以使用同态滤波算法来对光照进行一个均匀化处理,也可以用数字形态学算法来对光照不均进行均匀化处理,下图是用我们的校正光照不均算法处理的结果:

Alt text|center

2.3图像增强

增强是图像处理的一个核心模块,在众多的计算机视觉应用中,都会加入增强算法。增强的目的是为了突出显示我们感兴趣的区域,同时抑制不感兴趣的特征。通过增加不同区域之间的差异,提高了图像的视觉效果,同时丰富了视觉信息量。在文档扫描中,我们提出了三种增强算法,分别对文档的对比度、细节和字符进行增强,其结果如下:

Alt textt|center

2.4黑白扫描

顾名思义,黑白扫描是将文档扫描成一幅只有白底黑字的二值图像,其核心是需要找到合适的分水岭(阈值)。黑白扫描算法属于图像分割中的阈值分割这一类。这里我们提出四种黑白扫描算法,其中一种算法是专门针对低分辨文档图,扫描后可以生成超分辨图。下面简要介绍一下算法思路。

为了能找到精确的分水岭,基于如下假设,在正常的文档灰度图中,只有白与黑两色,通常在这种情况下,绝大部分扫描App都能得到较好的效果。但若在文档中加入了阴影干扰,则此时就成了黑、白、影三色,三色的两两组合有三种:

如下:

白+黑、白+影、黑+影

我们的目的是找到黑与影之间的分水岭,这里引入最小错误率贝叶斯决策,

使错误率最小,等价于使后验概率最大,

因为不是分类,这里我们使用类间方差极大化计算使后验概率最大的分水岭值。

为了测试算法好坏,我们与已上市的三款口碑好的扫描APP进行对比,三款App如下所示:

Alt text|center

这里分别选取叠加阴影和深阴影的文档图作为算法的测试图,如下所示:

Alt textt|center

分别用PDF Scanner、Scanbot、Tiny Scanner 与我们提出的三种算法进行扫描,对比结果如下所示,从左到右依次是PDF Scanner、Scanbot、Tiny Scanner与我们提出的三种算法的结果:

Alt text|center

在阴影叠加这幅测试图中,三款app扫描后都留下了浅浅的阴影痕迹,我们的算法完全消除了阴影的影响。在深阴影中,三款App都没有将深阴影的轮廓消除,而我们提出的算法基本都消除了深阴影,尤其是后两种算法,扫描后的结果非常干净。为了进一步对比算法好坏,我们计算了扫描结果的信息熵,并画图,结果如下:

Alt text|center

Alt text|center

可以看到我们算法结果的信息熵整体低于三款App扫描的信息熵,也就是说我们在得到了最好的扫描结果基础之上,同时滤除了阴影对文档的干扰。

现在对比一下三款App与我们提出的专门对低分辨文档图的扫描结果,测试图如下所示:

Alt text|center

依然分别用PDF Scanner、Scanbot、Tiny Scanner 与我们提出的算法进行扫描,对比结果如下所示,从左到右依次是PDF Scanner、Scanbot、Tiny Scanner与我们提出的算法的结果:

Alt text|center

可以看到我们提出的算法经过超分辨重构后,得到了最清晰的结果,在信息熵的统计中,也可以看到,我们重构后的信息熵是最大的,也就是说我们扫描后得到的信息是最多的,信息熵结果对比,如下所示:

Alt text|center

3.后记

本次主要介绍了文档扫描的一些前期重要算法以及黑白扫描算法,后续会还继续介绍文档扫描的技术,感兴趣的小伙伴可以持续关注。

iCourt

技术团队

想要更多了解我们或投稿,联系小编 :

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180312G1IDYI00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券