首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >php中的pdf文本提取器类

php中的pdf文本提取器类
EN

Stack Overflow用户
提问于 2011-06-29 21:04:18
回答 3查看 5.1K关注 0票数 2

有没有任何可用的类,在php中提取所有的文本从pdf文件,以便我可以存储在mysql数据库中。我的pdf有许多元素,如图像,表格,纯文本,表单元素,图表等。

到目前为止,我在过去的两天里看到了许多提取文本的类,但没有一个促进完整的文本提取,不是从pdf中提取完整的文本。

我想从给定的pdf文件中提取所有文本,即使文本在表中等。

有人知道这事吗?:)

非常感谢。祝您有愉快的一天:)

EN

回答 3

Stack Overflow用户

回答已采纳

发布于 2011-06-29 21:16:57

票数 0
EN

Stack Overflow用户

发布于 2011-06-29 21:12:12

如果您在linux服务器上运行它,您可以尝试使用apdf2text,通过exec调用它,然后获取输出文件的内容。

请注意,有一些pdf到文本的脚本,你会得到不同的里程数。

票数 0
EN

Stack Overflow用户

发布于 2013-09-03 05:58:38

我测试过很多命令行程序,但是没有一个是100%的结果。因此,我用PHP创建了自己的库:

https://github.com/smalot/pdfparser

目前它是面向文本的,但图像支持将在计划中。

如果你遇到问题,感谢你给我发送你的PDF,如果可能的话,请告诉我你制作的方式。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/6521079

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档