我有几种类型的图像,我需要从其中提取文本。根据背景噪声,我可以手动将图像分为3类:
对于第一类图像,我可以在没有问题的情况下应用OCR‘’ing。→基本案例。
对于第2类图像和某些第3类图像,我可以通过应用以下方法来提取文本:
对于OCR‘’ing任务,一种消除噪声的方法显然不适用于所有图像。那么,有什么方法对图像的水平背景噪声进行分类吗?
欢迎所有建议。提前谢谢。
发布于 2022-01-21 14:24:12
在其他问题上跟进你的评论,下面是一些你可以尝试的东西。下面的一些想法组合应该会有所帮助。
图像嵌入与向量聚类
手册
使用预先培训过的网络,如resnet
on imagenet (可能工作不好),或者使用经过MNIST/EMNIST
培训的简单预培训网络。
Extract and concat
中的一些层将网络末端的权重矢量压平。采用维数约简和最近邻/近似近邻算法来寻找最接近的匹配。将集群的数量设置为3
,因为有3种类型的图像。
最近的邻居从KNN开始。在github中也有许多可以帮助的库,如费斯、烦扰等。
我们可以找到更多,
https://github.com/topics/nearest-neighbor-search
https://github.com/topics/approximate-nearest-neighbor-search
如果以上结果不够好,try finetuning
仅在最后几层进行MNIST/EMNIST训练网络。
利用现有图书馆
为了分组/查找相似的图像,
https://github.com/jina-ai/jina
您应该能够使用github上的标记neural-search
、image-search
找到更多的相似聚类。
https://github.com/topics/neural-search
https://github.com/topics/image-search
OCR
分类
pytorch
或tensorflow
的mnist或cifar示例,以训练和分类测试图像。图片来自,https://www.pyimagesearch.com/2021/03/22/opencv-template-matching-cv2-matchtemplate/
噪声去除
图片来自,https://keras.io/examples/vision/autoencoder/
发布于 2022-01-06 11:54:49
你的样品不太有说服力。所有图像都很容易被二值化(阈值25)。
https://stackoverflow.com/questions/70604177
复制相似问题