问如何使用pdflib逐句获取文本？
EN

Stack Overflow用户

提问于 2016-05-22 13:37:34

回答 1查看 226关注 0票数 0

pdflib 是一个很好的分析PDF的软件。当我使用它从PDF中提取文本时。如何逐句提取文本？现在我只能按单词、行、页进行提取。例如，在PDF中提供以下内容：

I want to extract text from pdf
Sentence by sentence. Is there 
anybody can help?

word模式每次返回一个单词(即I；want；to；extract...)，line模式每次返回一行(即我想从pdf中提取文本；句子在那里；任何男孩都可以帮助？)。页面模式返回整个段落。我想要得到的是每次的句子(例如，我想逐句从PDF中提取文本；有没有人可以帮助我？)

发布于 2016-05-22 16:05:51

我给他们发了支持邮件，下面是他们的回复：

你好,

这在TET中是不可能的。我假设您指的是TET (不是PDFlib)，它是我们的文本提取工具包。

要按句子检索内容，必须添加一个post过程，该过程确定句子的结尾，然后根据需要返回字符串。例如，当你使用粒度词时，你会循环所有的词。然后你把所有的单词组合起来，直到单词是断句的。然后返回字符串。但是，这必须在您的代码中完成。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/37370938

复制

相似问题

问如何使用pdflib逐句获取文本？EN