我正在做一个项目,其中我必须从文本文件(.doc)格式中提取名词、形容词、名词短语和动词。我有一个大约75个这样的文件的语料库。我已经访问了net来查找它,我偶然发现了使用nltk的python中的POS标记。因为我的项目是在c#中(使用visual studio 2008),所以我需要一个代码来这样做。
我尝试在python3中使用spacy从文本中提取语言特征。Text2 amazing spacy is going to help me
我正在寻找这样的输出,通过提取具有我提供的特定词性模式的三元语法/二元语法短语的单词。如名词、动词名词、形容词等,同时也保留了数据框架结构。如果一个句子有多个短语,则必须使用新短语<