首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >用python将PDF、DOCs、DOCs转换为文本格式的解决方案

用python将PDF、DOCs、DOCs转换为文本格式的解决方案
EN

Stack Overflow用户
提问于 2011-07-28 06:00:02
回答 4查看 2.6K关注 0票数 0

我正在开发一个全文搜索引擎,用于索引流行的二进制格式。我知道已经有很多这样的问题(和解决办法),但我发现很难找到这样一个问题:

  • 交叉平台
  • 同时支持DOC、DOCX和PDF格式
  • 易于与python一起使用
  • 可以在主要的共享主机中设置。
EN

回答 4

Stack Overflow用户

回答已采纳

发布于 2011-07-28 07:41:50

  • 对于PDF,我推荐PDFminer
  • 尝试docx模块(我自己还没有使用它)
  • 我不知道有任何纯python模块可以读取.doc文件。
  • 有从.doc文件中提取文本的命令行工具: antiword和catdoc (可能还有其他)。如果包安装在共享主机上,则可以使用subprocess对这些工具进行打包。可在Windows上通过Cygwin获得。
  • 阿帕奇POI是一个可以从Office文档中提取文本的Java库。如果您的共享主机安装了Java,您可以编写一些Java (或Jython)代码并使用subprocess执行。
票数 1
EN

Stack Overflow用户

发布于 2011-07-28 08:18:56

如果在服务器端可以使用OpenOffice,那么可以使用unoconv:在OpenOffice支持的任何文档格式之间进行转换

票数 0
EN

Stack Overflow用户

发布于 2011-07-28 12:13:58

一个可能的解决方案是使用google文档从二进制..doc文件中提取文本内容。您将文档上载到google文档,然后下载文本内容。这是一个相当缓慢的过程,但它是我所知道的唯一“纯Python”解决方案,因为除了网络访问之外,它不需要任何外部工具。如果允许您在主机上安装外部工具,如catdoc或antiword,则是一个更好的解决方案。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/6854665

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档