,可以使用Python的python-docx库来实现。
python-docx是一个用于读取、查询和修改Microsoft Word文件的Python库。它可以解析docx文件,并提供了一系列方法来获取文本内容。
以下是一个示例函数,用于从doc和docx文件中抓取文本:
from docx import Document
def extract_text_from_docx(file_path):
doc = Document(file_path)
text = ""
for paragraph in doc.paragraphs:
text += paragraph.text + "\n"
return text
def extract_text_from_doc(file_path):
with open(file_path, "rb") as file:
data = file.read()
text = data.decode("utf-8")
return text
def extract_text_from_file(file_path):
if file_path.endswith(".docx"):
return extract_text_from_docx(file_path)
elif file_path.endswith(".doc"):
return extract_text_from_doc(file_path)
else:
return "Unsupported file format."
# 示例用法
file_path = "example.docx"
text = extract_text_from_file(file_path)
print(text)
这个函数首先判断文件的扩展名,如果是docx文件,则使用python-docx库来解析文本内容。对于docx文件,我们可以通过遍历doc.paragraphs
来获取每个段落的文本内容,并将其拼接到一个字符串中。
如果是doc文件,则使用二进制模式打开文件,并读取其中的数据。然后使用utf-8编码将数据解码为文本。
最后,我们可以调用extract_text_from_file
函数,并传入文件路径来提取文本内容。
这种方法可以适用于从doc和docx文件中抓取文本,例如从合同、报告、简历等文档中提取关键信息。
领取专属 10元无门槛券
手把手带您无忧上云