首先,我需要从大型文档(主要是docx和pdf文件)中提取特定的单词/短语。到目前为止,我们同意将数据作为突出显示的文本接收,因为将所有word标记复制粘贴到excel中对他们来说是不可行的。在尝试提取突出显示的文本时,我发现了这篇文章:How can I get the text by color from a word document with win32com?在这篇文章中,Bio-Geek给出了一个代码片段,这正是我需要的,但我无法运行它,错误是: NameError:未定义名称“op