有没有任何可用的类,在php中提取所有的文本从pdf文件,以便我可以存储在mysql数据库中。我的pdf有许多元素,如图像,表格,纯文本,表单元素,图表等。
到目前为止,我在过去的两天里看到了许多提取文本的类,但没有一个促进完整的文本提取,不是从pdf中提取完整的文本。
我想从给定的pdf文件中提取所有文本,即使文本在表中等。
有人知道这事吗?:)
非常感谢。祝您有愉快的一天:)
发布于 2011-06-29 21:16:57
发布于 2011-06-29 21:12:12
如果您在linux服务器上运行它,您可以尝试使用apdf2text,通过exec调用它,然后获取输出文件的内容。
请注意,有一些pdf到文本的脚本,你会得到不同的里程数。
发布于 2013-09-03 05:58:38
我测试过很多命令行程序,但是没有一个是100%的结果。因此,我用PHP创建了自己的库:
https://github.com/smalot/pdfparser
目前它是面向文本的,但图像支持将在计划中。
如果你遇到问题,感谢你给我发送你的PDF,如果可能的话,请告诉我你制作的方式。
https://stackoverflow.com/questions/6521079
复制相似问题