首页
学习
活动
专区
工具
TVP
发布
社区首页 >问答首页 >Python列表-理解速度太慢

Python列表-理解速度太慢
EN

Stack Overflow用户
提问于 2018-06-10 00:21:30
回答 1查看 1.1K关注 0票数 3

我有231个pdf文件,想把它们中的每一个都转换成字符串格式。随后,我将这些字符串中的每一个都保存到一个txt文件中。

我能够为此创建一段代码(当我为较少数量的元素运行代码时,我检查了它是否正常工作),但是python甚至在10h之后也没有完成程序的执行!

我使用"for loop“尝试了相同的代码,但它也太慢了。你知道我怎么才能让这段代码更快吗?

下面是我的代码:

代码语言:javascript
复制
from pdfminer.pdfinterp import PDFResourceManager, 
PDFPageInterpreter#process_pdf
from pdfminer.pdfpage import PDFPage
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams

from io import StringIO

def pdf_to_text(pdfname):

    # PDFMiner boilerplate
    rsrcmgr = PDFResourceManager()
    sio = StringIO()
    codec = 'utf-8'
    laparams = LAParams()
    device = TextConverter(rsrcmgr, sio, codec=codec, laparams=laparams)
    interpreter = PDFPageInterpreter(rsrcmgr, device)

    # Extract text
    fp = open(pdfname, 'rb')
    for page in PDFPage.get_pages(fp):
        interpreter.process_page(page)
    fp.close()

    # Get text from StringIO
    text = sio.getvalue()

    # Cleanup
    device.close()
    sio.close()

    return text

lista2 = [pdf_to_text(k) for k in lista1]

其中lista1是我的231个pdf的列表

pdf文件是从这个website中提取出来的。我只选择了名称中包含单词"Livro“的文件。

EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/50776263

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档