文章/答案/技术大牛

发布

社区首页 >问答首页 >将PDF文档中的文本提取为单独的新文件名文档

问将PDF文档中的文本提取为单独的新文件名文档
EN

Software Recommendation用户

提问于 2022-05-09 19:57:20

回答 1查看 106关注 0票数 1

我有大量的PDF文件(>2k文件)，它们看起来类似于这个(PDF样本图像)

我有一系列的缩进(A，B，C，D)，后面是文本。我想要实现的是在每个列表缩进的PDF中提取每个段落。

例如，原始文件名是: samplepdf.pdf

提取将类似于以下内容：

samplepdf_A.pdf -缩进A中的文本(lorem ipsum)

samplepdf_B.pdf -缩进B中的文本(前庭)

samplepdf_C.pdf -缩进C (Sed mollis erat)的文本

samplepdf_D.pdf -缩进D中的文本(Praesent皂甙)

我在GitHub中搜索过，但我没有真正找到我需要的东西。

编辑:我也对其他语言开放。

最后，问题是:我能否将缩进之间的文本提取成单独的文件？

提前谢谢！

pdf

c++

回答 1

Software Recommendation用户

回答已采纳

发布于 2022-05-15 19:02:38

我工作的公司有一个专业的.NET库，它支持解析文档(包括PDF)并从文档中提取文本。有一个这里的C#教程展示了如何使用LEADTOOLS从PDF文档中获取文本。

有了本教程中所示的文本之后，就可以通过调用_pageText.BuildWords法获得每个单词的准确位置，这将给出所有单词的列表，以及_pageText.Words属性中每个单词的位置。然后，您可以从每个单词的位置确定该单词所属的确切段落或“缩进”。

如果您想尝试SDK，在此页上有一个免费的评估版本。

票数 1

页面原文内容由Software Recommendation提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://softwarerecs.stackexchange.com/questions/82925

复制

相似问题

问将PDF文档中的文本提取为单独的新文件名文档
EN

回答 1

Software Recommendation用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问将PDF文档中的文本提取为单独的新文件名文档EN

回答 1

Software Recommendation用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问将PDF文档中的文本提取为单独的新文件名文档
EN