使用PDF,我可以从docsplit或任何其他类型的文件中提取文本。例如,使用下面的行:
Docsplit.extract_pages('doc.pdf')我可以拥有PDF文件的文本内容。
我目前使用的是Rails,PDF是通过请求发送的,并且驻留在内存中。查看API和源代码,我找不到从内存中提取文本的方法,只能从文件中提取。
有没有一种方法可以获得此PDF的文本,而无需创建临时文件?
如果重要的话,我会使用attachment_fu。
发布于 2015-01-06 20:08:30
使用临时目录:
require 'docsplit'
def pdf_to_text(pdf_filename)
Docsplit.extract_text([pdf_filename], ocr: false, output: Dir.tmpdir)
txt_file = File.basename(pdf_filename, File.extname(pdf_filename)) + '.txt'
txt_filename = Dir.tmpdir + '/' + txt_file
extracted_text = File.read(txt_filename)
File.delete(txt_filename)
extracted_text
end
pdf_to_text('doc.pdf')https://stackoverflow.com/questions/16286093
复制相似问题