pdflib 是一个很好的分析PDF的软件。当我使用它从PDF中提取文本时。如何逐句提取文本?现在我只能按单词、行、页进行提取。例如,在PDF中提供以下内容:
I want to extract text from pdf
Sentence by sentence. Is there
anybody can help?
word模式每次返回一个单词(即I;want;to;extract...),line模式每次返回一行(即我想从pdf中提取文本;句子在那里;任何男孩都可以帮助?)。页面模式返回整个段落。我想要得到的是每次的句子(例如,我想逐句从PDF中提取文本;有没有人可以帮助我?)
发布于 2016-05-22 16:05:51
我给他们发了支持邮件,下面是他们的回复:
你好,
这在TET中是不可能的。我假设您指的是TET (不是PDFlib),它是我们的文本提取工具包。
要按句子检索内容,必须添加一个post过程,该过程确定句子的结尾,然后根据需要返回字符串。例如,当你使用粒度词时,你会循环所有的词。然后你把所有的单词组合起来,直到单词是断句的。然后返回字符串。但是,这必须在您的代码中完成。
https://stackoverflow.com/questions/37370938
复制相似问题