问我想阅读带有图像、文本和表格的PDF内容
EN

Stack Overflow用户

提问于 2019-01-04 22:30:46

回答 1查看 26关注 0票数 0

祝大家新年快乐！

我是一个非常新的阅读PDF内容与图像，文本和表格。我浏览过许多网站，我使用iTextSharp (TextWithFontExtractionStategy)读取内容并将其转换为HTML，我只处理文本。我在许多网站上寻找建议，但我找不到解决方案。

现在，我想要实现的是我想从PDF中读取包含文本、图像和表格的内容，并将其转换为HTML。我知道识别图像和表格是很困难的。

对于图像-我不想从PDF中提取图像，因为我要为图像保留一些占位符，以便我可以给出一些替代文本。如果存在图像，是否可以在读取PDF内容时识别图像？因为iTextShrp(TextWithFontExtractionStategy)正在跳过图像并读取下一项。

对于表格-我想阅读表格，因为它是如何在PDF中出现的。

所有这些转换都应该在一个结果中给出。

如果有人能帮我，我将不胜感激！

提前谢谢你！

发布于 2019-01-04 22:51:40

考虑到您将使用.NET进行开发，您可以使用PDFSharp库。

Capturing Images

对于PDF规范，有一个与表数据检索相关的excellent SO answer。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/54040895

复制

相似问题

问我想阅读带有图像、文本和表格的PDF内容EN