我尝试使用python-docx
模块(pip install python-docx
),但这似乎非常混乱,因为在github repo测试示例中,他们使用的是opendocx
函数,而在readthedocs中,他们使用的是Document
类。即使他们只展示了如何将文本添加到docx文件中,而不是读取现有的文件?
第一个(opendocx
)不工作,可能已弃用。对于第二种情况,我尝试使用:
from docx import Document
document = Document('test_doc.docx')
print document.paragraphs
它返回了一个<docx.text.Paragraph object at 0x... >
列表
然后我做到了:
for p in document.paragraphs:
print p.text
它返回所有文本,但几乎没有丢失任何内容。所有URL (CTRL+CLICK转到URL)在控制台上不是以文本形式出现的。
问题出在哪里?为什么会缺少URL?
如何才能在不遍历循环的情况下获得完整的文本(比如open().read()
)
发布于 2016-03-08 23:28:19
你可以试试这个
import docx
def getText(filename):
doc = docx.Document(filename)
fullText = []
for para in doc.paragraphs:
fullText.append(para.text)
return '\n'.join(fullText)
发布于 2015-10-29 10:59:24
你可以使用python-docx2txt,它改编自python-docx,但也可以从链接、页眉和页脚中提取文本。它还可以提取图像。
发布于 2017-04-21 13:10:35
你也可以试试这个
from docx import Document
document = Document('demo.docx')
for para in document.paragraphs:
print(para.text)
https://stackoverflow.com/questions/25228106
复制相似问题