祝大家新年快乐!
我是一个非常新的阅读PDF内容与图像,文本和表格。我浏览过许多网站,我使用iTextSharp (TextWithFontExtractionStategy)读取内容并将其转换为HTML,我只处理文本。我在许多网站上寻找建议,但我找不到解决方案。
现在,我想要实现的是我想从PDF中读取包含文本、图像和表格的内容,并将其转换为HTML。我知道识别图像和表格是很困难的。
对于图像-我不想从PDF中提取图像,因为我要为图像保留一些占位符,以便我可以给出一些替代文本。如果存在图像,是否可以在读取PDF内容时识别图像?因为iTextShrp(TextWithFontExtractionStategy)正在跳过图像并读取下一项。
对于表格-我想阅读表格,因为它是如何在PDF中出现的。
所有这些转换都应该在一个结果中给出。
如果有人能帮我,我将不胜感激!
提前谢谢你!
发布于 2019-01-04 22:51:40
https://stackoverflow.com/questions/54040895
复制相似问题