我正在尝试使用spaCy来训练一个NER模型,以识别位置、(人)名称和组织。我试图理解spaCy是如何在文本中识别实体的,但我一直未能找到答案。从 on Github和上可以看出,spaCy使用文本中的许多特性,如POS标记、前缀、后缀以及文本中的其他字符和基于单词的特性来训练平均感知器。但是,代码中没有任何地方显示spaCy使用GLoVe嵌入(尽管句子/文档中的每个单词似乎都有它们,如果它们存在于GLoVe语料库中)。
这
同形字是一个单词,其拼写与另一个单词相同,但发音不同,含义也不同,例如,lead (在前面)/ lead (一种金属)。我试图通过对每个文档的每个单词向量进行求和来比较文档之间的差异,最后找出余弦相似度。例如,如果spacy向量对上面列出的两个‘铅’具有相同的向量,那么结果可能会很糟糕。import spacy
str1 = 'The guy we