文章/答案/技术大牛

发布

社区首页 >问答首页 >用python将PDF、DOCs、DOCs转换为文本格式的解决方案

问用python将PDF、DOCs、DOCs转换为文本格式的解决方案
EN

Stack Overflow用户

提问于 2011-07-28 06:00:02

回答 4查看 2.6K关注 0票数 0

我正在开发一个全文搜索引擎，用于索引流行的二进制格式。我知道已经有很多这样的问题(和解决办法)，但我发现很难找到这样一个问题：

交叉平台
同时支持DOC、DOCX和PDF格式
易于与python一起使用
可以在主要的共享主机中设置。

python

回答 4

Stack Overflow用户

回答已采纳

发布于 2011-07-28 07:41:50

对于PDF，我推荐PDFminer。
尝试docx模块(我自己还没有使用它)
我不知道有任何纯python模块可以读取.doc文件。
有从.doc文件中提取文本的命令行工具: antiword和catdoc (可能还有其他)。如果包安装在共享主机上，则可以使用subprocess对这些工具进行打包。可在Windows上通过Cygwin获得。
阿帕奇POI是一个可以从Office文档中提取文本的Java库。如果您的共享主机安装了Java，您可以编写一些Java (或Jython)代码并使用subprocess执行。

票数 1

Stack Overflow用户

发布于 2011-07-28 08:18:56

如果在服务器端可以使用OpenOffice，那么可以使用unoconv:在OpenOffice支持的任何文档格式之间进行转换。

票数 0

Stack Overflow用户

发布于 2011-07-28 12:13:58

一个可能的解决方案是使用google文档从二进制..doc文件中提取文本内容。您将文档上载到google文档，然后下载文本内容。这是一个相当缓慢的过程，但它是我所知道的唯一“纯Python”解决方案，因为除了网络访问之外，它不需要任何外部工具。如果允许您在主机上安装外部工具，如catdoc或antiword，则是一个更好的解决方案。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/6854665

复制

相似问题

问用python将PDF、DOCs、DOCs转换为文本格式的解决方案
EN

回答 4

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问用python将PDF、DOCs、DOCs转换为文本格式的解决方案EN

回答 4

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问用python将PDF、DOCs、DOCs转换为文本格式的解决方案
EN