我有一堆PDF文档,我通常能够使用iText.Kernel.Pdf.Canvas.Parser.PdfTextExtractor.GetTextFromPage
方法读取所有文档。
有些文件中有一段没有阅读的文本。在所附的图片中,我无法阅读被黄色包围的区域中的文本。
我猜,这是实体不是图片,因为我无法复制粘贴使用鼠标。此外,我能够通过处理自定义策略对象中的EventType.RENDER_IMAGE
来读取文档中的图像。并且,包围区域不被提取为图像。
关于如何阅读这篇文章,有什么建议吗?
谢谢你,秀
发布于 2018-04-16 21:44:30
如果您没有获得该内容的RENDER_TEXT
或RENDER_IMAGE
事件,则很可能使用矢量图形说明绘制该事件。
您也可以检索这样的指令,但是您得到的是一系列路径定义(移动到,线到,曲线到,.)和路径绘制(笔画,填充,.)信息作为RENDER_PATH
事件。
https://stackoverflow.com/questions/47190420
复制相似问题