我有大量的PDF文件(>2k文件),它们看起来类似于这个(PDF样本图像)
我有一系列的缩进(A,B,C,D),后面是文本。我想要实现的是在每个列表缩进的PDF中提取每个段落。
例如,原始文件名是: samplepdf.pdf
提取将类似于以下内容:
samplepdf_A.pdf -缩进A中的文本(lorem ipsum)
samplepdf_B.pdf -缩进B中的文本(前庭)
samplepdf_C.pdf -缩进C (Sed mollis erat)的文本
samplepdf_D.pdf -缩进D中的文本(Praesent皂甙)
我在GitHub中搜索过,但我没有真正找到我需要的东西。
编辑:我也对其他语言开放。
最后,问题是:我能否将缩进之间的文本提取成单独的文件?
提前谢谢!
发布于 2022-05-15 19:02:38
我工作的公司有一个专业的.NET库,它支持解析文档(包括PDF)并从文档中提取文本。有一个这里的C#教程展示了如何使用LEADTOOLS从PDF文档中获取文本。
有了本教程中所示的文本之后,就可以通过调用_pageText.BuildWords法获得每个单词的准确位置,这将给出所有单词的列表,以及_pageText.Words属性中每个单词的位置。然后,您可以从每个单词的位置确定该单词所属的确切段落或“缩进”。
如果您想尝试SDK,在此页上有一个免费的评估版本。
https://softwarerecs.stackexchange.com/questions/82925
复制相似问题