我正在使用spacy的PhraseMatcher来识别用户评论中的药物名称。当应用服务器启动时,我正在从一个大文件中预装名称,但不希望在每个文档进程中都这样做,因为这需要一段时间。在处理新文档时,我希望在短语中添加识别出的新药物,以便它识别新的名称。然而,spacy不会接受同样的match_id的新药。任何帮助都将不胜感激。# Global preload when application server starts
我在之后创建了一个来匹配文档中的名称。我想使用结果匹配作为额外的训练数据,以便训练Spacy NER模型。然而,我的模式包含这两个全名(例如“巴拉克·奥巴马”)和姓氏(“奥巴马”)。因此,在包含“巴拉克·奥巴马”的句子中,两个模式都匹配,导致重叠匹配。然而,当我尝试使用数据进行训练时,这种重叠会触发异常,例如:
ValueError: [E103] Trying to set conflicting
However, a great big cut to the onions have been observed",我希望匹配短语“切洋葱”。这只是一个最小的例子。另外,我只希望匹配词汇化的版本,在短语之间有0个或更多的单词是可以的。因此,在上面的示例中,我希望它返回[False, True]。我该怎么做呢?我的半个尝试如下(我需要帮助的地方被标记为TODO): import spacy
from spacy.matcher import PhraseMatcher
我有多个文本片段,存储在一个列表中,假设如下所示: text = ['mary had a little lamb', 'julie had a little goat','tara and mary like to drink beer'] 只有当文本片段同时包含动物的名字和女孩的名字时,我才想返回匹配['mary had a littl
我正在尝试使用spaCy短语匹配器()有效地清理从自动语音识别软件中派生出来的文本。数据非常脏,没有分开的发言者,所以我试图删除所有数据样本重复短语。使用基于规则的短语匹配器,我能够在示例字符串中找到目标文本,但是在尝试用空格替换它们时,我会在下面收到一个类型错误:TypeError: replace() argument 1 must be str, not spacy.tokens.token.Token# Im