我得到了这个错误,而解析的PDF文件使用pypdf2,我是随同错误的PDF附件。 I have attached the PDF to be parsed please click to view 有人能帮上忙吗? import PyPDF2
read_pdf = PyPDF2.PdfFileReader(pdfName) page_content = page.extractText()
我使用了下面的 of EAST (高效、准确的场景文本检测器)来识别和绘制多幅图像中文本周围的包围框,它工作得非常好!然而,OCR的下一个步骤(我正在使用pytesseract来提取这些图像的文本并将它们转换为字符串)是可怕的失败。使用--oem和--psm的所有可能配置,我无法让pytesseract检测到看起来非常清晰的文本,例如:识别的文本在图像下面。虽然我已经应用了对比度增强,也尝试了膨胀和侵蚀,但我无法让