首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >如何使用pdflib逐句获取文本?

如何使用pdflib逐句获取文本?
EN

Stack Overflow用户
提问于 2016-05-22 13:37:34
回答 1查看 226关注 0票数 0

pdflib 是一个很好的分析PDF的软件。当我使用它从PDF中提取文本时。如何逐句提取文本?现在我只能按单词、行、页进行提取。例如,在PDF中提供以下内容:

代码语言:javascript
运行
复制
I want to extract text from pdf
Sentence by sentence. Is there 
anybody can help?

word模式每次返回一个单词(即I;want;to;extract...),line模式每次返回一行(即我想从pdf中提取文本;句子在那里;任何男孩都可以帮助?)。页面模式返回整个段落。我想要得到的是每次的句子(例如,我想逐句从PDF中提取文本;有没有人可以帮助我?)

EN

回答 1

Stack Overflow用户

发布于 2016-05-22 16:05:51

我给他们发了支持邮件,下面是他们的回复:

你好,

这在TET中是不可能的。我假设您指的是TET (不是PDFlib),它是我们的文本提取工具包。

要按句子检索内容,必须添加一个post过程,该过程确定句子的结尾,然后根据需要返回字符串。例如,当你使用粒度词时,你会循环所有的词。然后你把所有的单词组合起来,直到单词是断句的。然后返回字符串。但是,这必须在您的代码中完成。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/37370938

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档