首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >将PDF文档中的文本提取为单独的新文件名文档

将PDF文档中的文本提取为单独的新文件名文档
EN

Software Recommendation用户
提问于 2022-05-09 19:57:20
回答 1查看 106关注 0票数 1

我有大量的PDF文件(>2k文件),它们看起来类似于这个(PDF样本图像)

我有一系列的缩进(A,B,C,D),后面是文本。我想要实现的是在每个列表缩进的PDF中提取每个段落。

例如,原始文件名是: samplepdf.pdf

提取将类似于以下内容:

samplepdf_A.pdf -缩进A中的文本(lorem ipsum)

samplepdf_B.pdf -缩进B中的文本(前庭)

samplepdf_C.pdf -缩进C (Sed mollis erat)的文本

samplepdf_D.pdf -缩进D中的文本(Praesent皂甙)

我在GitHub中搜索过,但我没有真正找到我需要的东西。

编辑:我也对其他语言开放。

最后,问题是:我能否将缩进之间的文本提取成单独的文件?

提前谢谢!

EN

回答 1

Software Recommendation用户

回答已采纳

发布于 2022-05-15 19:02:38

我工作的公司有一个专业的.NET库,它支持解析文档(包括PDF)并从文档中提取文本。有一个这里的C#教程展示了如何使用LEADTOOLS从PDF文档中获取文本。

有了本教程中所示的文本之后,就可以通过调用_pageText.BuildWords法获得每个单词的准确位置,这将给出所有单词的列表,以及_pageText.Words属性中每个单词的位置。然后,您可以从每个单词的位置确定该单词所属的确切段落或“缩进”。

如果您想尝试SDK,在此页上有一个免费的评估版本。

票数 1
EN
页面原文内容由Software Recommendation提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://softwarerecs.stackexchange.com/questions/82925

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档