我使用pdf2text从PDFminer减少一个PDF到文本。不幸的是,它包含了特殊的字符。让我显示我的控制台的输出。
>>>a=pdf_to_text("ap.pdf")
这是它的一个例子,有一点截断
>>>a[5000:5500]
'f one architect. Decades ...... but to re\xef\xac\x82ect\none set of design ideas, than to have one that contains many\ngood but independent and uncoor