我尝试使用Apache Tika和Tesseract for Windows解析包含扫描文本的PNG文件。尽管从命令行运行Tesseract可以正确识别文本,但Tika返回的内容仅包含换行符("\n")。C:\Users\admin\AppData\Local\Temp\apache-tika-6655676641285964446.tmp C:\Users\admin\AppData\Local\Temp\apa
我正在使用将PDF文件解析为文本。一些PDF文件可以包含扫描文档。Apache使用Tesseract将文本识别为图像。但是没有带有Tesseract的jar库,用户应该在操作系统中安装Tesseract作为独立的应用程序。如果不安装Tesseract,我如何使用Apache中的Tesseract?Please set the OCR_STRATEGY to NO_OCR or configure Tesseract