首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

Marior去除边距和迭代内容矫正用于自然文档矫正

本文简要介绍了论文“ Marior: Margin Removal and Iterative Content Rectification for Document Dewarping in the Wild ”的相关工作。照相机捕捉到的文档图像通常会出现透视和几何变形。考虑到视觉美感较差和OCR系统性能下降,对其进行纠正具有重要的价值。最近的基于学习的方法集中关注于精确裁剪的文档图像。然而,这可能不足以克服实际挑战,包括具有大边缘区域或没有边缘区域的文档图像。由于这种不切实际,用户在遇到大型边缘区域时难以精确地裁剪文档。同时,无边缘的变形图像仍然是一个难以解决的问题。据作者所知,目前还没有完整有效的pipeline来纠正文档图像。为了解决这个问题,作者提出了一种新的方法,称为Marior(边缘去除和迭代内容修正)。Marior采用渐进策略,以从粗到细的方式迭代地提高去变形质量和可读性。具体来说,作者将pipeline划分为两个模块:边缘去除模块(MRM)和迭代内容校正模块(ICRM)。首先,作者预测输入图像的分割掩膜去除边缘,从而得到初步结果。然后,作者通过产生密集的位移流来进一步细化图像,以实现内容感知的校正。作者自适应地确定细化迭代的次数。实验证明了作者的方法在公共基准上的最新性能。

02

我为什么要写《OpenCV Android 开发实战》这本书

2015年我出版了个人第一本关于图像处理方面的书籍《Java图像处理-编程技巧与应用实践》,这本书主要是从理论与编码上面详细阐述了图像处理基础算法以及它们在编码实现上的技巧。一转眼已经三年过去了,在这三年的时光里我无时无刻都在关注图像处理与计算机视觉技术发展与未来,同时渐渐萌发了再写一本图像处理相关技术书籍的念头,因为《Java图像处理-编程技巧与应用实践》一书主要不是针对工程应用场景,读者在学完之后很难直接上手开始做项目,所以把第二本书定位为工程实战书籍类型,可以帮助大家解决工程与项目实际技术问题。OpenCV是英特尔开源出来的计算机视觉框架,有着十分强大的图像与视频分析处理算法库。借助OpenCV框架,Android程序员可以在不关心底层数学原理的情况下,解决人脸检测、OCR识别、AR应用开发,图像与视频分析处理,文本处理等Androd开发者经常遇到问题,考虑这些真实需求,本着从易到难的原则,列出了提纲,得到机械工业出版社 杨绣国编辑 肯定与大力支持,于是才有《OpenCV Android开发实战》一书的写作与出版。

03

Nat. Mach. Intell. | 多模态补全和特征的联合变分自编码器

今天为大家介绍的是来自威斯康星大学麦迪逊分校团队的一篇关于单细胞多模态的论文。单细胞多模态数据能够测量细胞的各种特征,从而深入了解细胞和分子机制。然而,多模态数据的生成仍然昂贵且具有挑战性,同时缺失模态也经常发生。最近,机器学习方法已经被开发用于数据补全,但通常需要完全匹配的多模态数据才能学习共同的潜在特征,可能缺乏模态特异性。为了解决这些问题,作者开发了一个机器学习模型,名为JAMIE。JAMIE接受单细胞多模态数据,这些数据可以在模态之间部分匹配样本。变分自编码器学习每个模态的潜在特征。然后,跨模态匹配样本的特征被聚合以识别联合的跨模态潜在特征,然后进行重构。为了进行跨模态补全,可以使用一个模态的潜在特征和另一个模态的解码器。为了提高解释性,作者使用Shapley值来确定跨模态补全和已知样本标签的输入特征的优先级。

02

AIGC席卷智慧办公,金山办公如何架构文档智能识别与理解的通用引擎?

如今,智慧办公是企业办公领域数字化转型的题中之义。作为国内最早开发的软件办公系统之一,金山办公如何应用深度学习实现复杂场景文档图像识别和技术理解?本文将从复杂场景文档的识别与转化、非文本元素检测与文字识别、文本识别中的技术难点等多个方面进行深度解析。 作者 | 金山办公CV技术团队 出品 | 新程序员 在办公场景中,文档类型图像被广泛使用,比如证件、发票、合同、保险单、扫描书籍、拍摄的表格等,这类图像包含了大量的纯文本信息,还包含有表格、图片、印章、手写、公式等复杂的版面布局和结构信息。早前这些信息均采用

01
领券