首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >我想阅读带有图像、文本和表格的PDF内容

我想阅读带有图像、文本和表格的PDF内容
EN

Stack Overflow用户
提问于 2019-01-04 22:30:46
回答 1查看 26关注 0票数 0

祝大家新年快乐!

我是一个非常新的阅读PDF内容与图像,文本和表格。我浏览过许多网站,我使用iTextSharp (TextWithFontExtractionStategy)读取内容并将其转换为HTML,我只处理文本。我在许多网站上寻找建议,但我找不到解决方案。

现在,我想要实现的是我想从PDF中读取包含文本、图像和表格的内容,并将其转换为HTML。我知道识别图像和表格是很困难的。

对于图像-我不想从PDF中提取图像,因为我要为图像保留一些占位符,以便我可以给出一些替代文本。如果存在图像,是否可以在读取PDF内容时识别图像?因为iTextShrp(TextWithFontExtractionStategy)正在跳过图像并读取下一项。

对于表格-我想阅读表格,因为它是如何在PDF中出现的。

所有这些转换都应该在一个结果中给出。

如果有人能帮我,我将不胜感激!

提前谢谢你!

EN

回答 1

Stack Overflow用户

发布于 2019-01-04 22:51:40

考虑到您将使用.NET进行开发,您可以使用PDFSharp库。

Capturing Images

对于PDF规范,有一个与表数据检索相关的excellent SO answer

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/54040895

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档