基于此链接:Is it possible to use spacy with already tokenized input? 我可以让Spacy接受标记化的文档作为输入,并进一步处理文档。words=token_tuple[1]) doc = proc(doc)
return doc 这对于单输入效果很好类似于: nlp_docs = self.nlp.pipe(texts) 管
为了对我的数据进行预处理和标记,我同时使用了spacy英语和德语标记器,因为句子都是用这两种语言的。这是我的密码:from spacy.lang.de import Germanfrom spacy.lang.deimport STOP_WORDS as stp_wrds_de
from spacy.lang.en.stop_words import STOP_WORDS as stp_wr
我正在使用spacy for nlp,并且我有一个问题,那就是以简洁的形式打印/输出结果。目前,(token.pos_)的每个输出都转到一个新的行。
我希望能把它打印出来,作为一个清单。我可以在nltk/stanford pos中做到这一点,但是spacy的文档非常混乱。我似乎找不到令牌是如何工作的,也不知道如何以可接受的方式调用我需要的值。Spacy,太机械了。
SpaCy的文档中有一些关于添加新俚语的信息。(1)何时调用以下函数?lex_attr_getters[NORM] = add_lookups(Language.Defaults.lex_attr_getters[NORM], NORM_EXCEPTIONS, BASE_NORMS)import spacy# Should I call the function add_lookups(...