我得到了一个工作申请的测试,我的交易是读一些.doc文件。有没有人知道做这件事的图书馆?我从一段原始的python代码开始:
f = open('test.doc', 'r')
f.read()
但这不会返回友好的字符串,我需要将其转换为utf-8
编辑:我只想从这个文件中获取文本
发布于 2017-03-31 16:18:43
发布于 2018-06-11 18:54:59
我也在尝试同样的做法,我找到了很多关于阅读.docx的信息,但关于.doc的信息要少得多;不管怎么说,我还是设法用下面的代码阅读了文本:
import win32com.client
word = win32com.client.Dispatch("Word.Application")
word.visible = False
wb = word.Documents.Open("myfile.doc")
doc = word.ActiveDocument
print(doc.Range().Text)
发布于 2017-12-26 14:32:54
前提条件:
安装antiword:sudo apt-get install antiword
安装docx:pip install docx
from subprocess import Popen, PIPE
from docx import opendocx, getdocumenttext
from cStringIO import StringIO
def document_to_text(filename, file_path):
cmd = ['antiword', file_path]
p = Popen(cmd, stdout=PIPE)
stdout, stderr = p.communicate()
return stdout.decode('ascii', 'ignore')
print document_to_text('your_file_name','your_file_path')
注意-新版本的python-docx删除了这个函数。确保通过pip安装docx,而不是新的python-docx
https://stackoverflow.com/questions/36001482
复制相似问题