下午好,我在我的项目中有一个问题,这是PDF压缩,过程如下:提取图像从一个PDF Hang OCR压缩股票OCR +合并图像和转换PDF每页结合所有生成的pdf格式与光学字符识别,光学字符识别PDFcon作为最终产品之一。我的原始文件大小为11MB,压缩后为4.2MB。整个过程运行得很完美,但我遇到的问题是OCR过程的速度。我在网上查看,我看到了一种方法来规避该过程,这是获得的原始PDF的文本层,并将其传递到最终的PDF是压缩的,尝试一些代码,如删除所有图像的PDF和单独与文本层,并插入我的压缩图像,但问题相比于上面提供的正常过程中,该文件的重量增加了超过4.2MB,这对我来说并不方便。当我寻
我在一个历史目录中使用了光学字符识别(OCR),并试图用Microsoft来清理文本。具体来说,我需要一些帮助来编写正则表达式,以便将两行合并在一起。例如,某物
John Smith,87银行
Bldg
实际上应该是
John Smith,87 Bldg
我尝试过几种方法,但都没有成功。有人能帮我吗?
我正在尝试使用android ML Kit文本识别库进行文本识别,但在运行时遇到错误,没有返回任何文本。错误: W/TextNativeHandle: Native handle not yet available. Reverting to no-op handle.
W/DynamiteModule: Local module descriptor class for com.google.android.gms.vision.dynamite.ocr not found.
I/DynamiteModule: Considering local module com.google.and