文章/答案/技术大牛

发布

社区首页 >问答首页 >使用docsplit从内存中的文档中提取文本

问使用docsplit从内存中的文档中提取文本
EN

Stack Overflow用户

提问于 2013-04-30 02:54:16

回答 1查看 1.3K关注 0票数 2

使用PDF，我可以从docsplit或任何其他类型的文件中提取文本。例如，使用下面的行：

 Docsplit.extract_pages('doc.pdf')

我可以拥有PDF文件的文本内容。

我目前使用的是Rails，PDF是通过请求发送的，并且驻留在内存中。查看API和源代码，我找不到从内存中提取文本的方法，只能从文件中提取。

有没有一种方法可以获得此PDF的文本，而无需创建临时文件？

如果重要的话，我会使用attachment_fu。

ruby-on-rails

ruby

attachment-fu

docsplit

回答 1

Stack Overflow用户

发布于 2015-01-06 20:08:30

使用临时目录：

require 'docsplit'

def pdf_to_text(pdf_filename)
  Docsplit.extract_text([pdf_filename], ocr: false, output: Dir.tmpdir)

  txt_file = File.basename(pdf_filename, File.extname(pdf_filename)) + '.txt'
  txt_filename = Dir.tmpdir + '/' + txt_file

  extracted_text = File.read(txt_filename)
  File.delete(txt_filename)

  extracted_text
end

pdf_to_text('doc.pdf')

票数 3

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/16286093

复制

相似问题

问使用docsplit从内存中的文档中提取文本
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问使用docsplit从内存中的文档中提取文本EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问使用docsplit从内存中的文档中提取文本
EN