我正在尝试转换pdf文件为图像,然后使用pytesseract来ocr文件。我能够成功地对linux本地路径中的文件执行此操作,但不能使用hdfs路径。
from wand.image import Image as wi
>>> wi(filename = 'hdfs://boboda02.boobo.com:8020/bda/clamsops/raw/personal_brella_test/09_29_2015_090902.pdf',resolution = 300)
Traceback (most recent call l