我正在开发一个全文搜索引擎,用于索引流行的二进制格式。我知道已经有很多这样的问题(和解决办法),但我发现很难找到这样一个问题:
发布于 2011-07-28 07:41:50
.doc
文件。.doc
文件中提取文本的命令行工具: antiword和catdoc (可能还有其他)。如果包安装在共享主机上,则可以使用subprocess
对这些工具进行打包。可在Windows上通过Cygwin获得。subprocess
执行。发布于 2011-07-28 08:18:56
如果在服务器端可以使用OpenOffice,那么可以使用unoconv:在OpenOffice支持的任何文档格式之间进行转换。
发布于 2011-07-28 12:13:58
一个可能的解决方案是使用google文档从二进制..doc文件中提取文本内容。您将文档上载到google文档,然后下载文本内容。这是一个相当缓慢的过程,但它是我所知道的唯一“纯Python”解决方案,因为除了网络访问之外,它不需要任何外部工具。如果允许您在主机上安装外部工具,如catdoc或antiword,则是一个更好的解决方案。
https://stackoverflow.com/questions/6854665
复制相似问题