有人能推荐一个库/API来从PDF中提取文本和图像吗?我们需要能够获取文档中预先知道的区域中包含的文本,因此API需要为我们提供页面上每个元素的位置信息。
我们希望数据以xml或json格式输出。我们目前正在研究PdfTextStream,它看起来很不错,但也想听听其他人的经验和建议。
xml
json
有没有其他的方法(商业的或者免费的)来从pdf中提取文本?
https://stackoverflow.com/questions/3650957
相似问题