对NLP来说非常新,尤其是NER。我试图在自定义数据集上训练一个NER模型。这是待售房屋的数据集。作为实体的一部分,我正在训练模型来提取reference数字。它们的长度是可变的(但通常在4-9之间),看起来像G55L7
或LPP01Z1-32
。
我怎样才能给这些实体一个新的"POS标签“,据我所知,在SpaCy的默认列表中找不到匹配它们的任何东西?
理想情况下,我希望将其与已有的NER模型一起进行培训,这样我也可以提取SpaCy已经支持的SpaCy。
发布于 2019-10-10 17:41:49
对于你的第一个问题,我会尝试使用Regex来识别参考数字,因为与普通单词相比,它们似乎是独一无二的。我想他们是:
可能是这样的:\b[A-Z]+\d+([A-Z]|\d|-)*\b
我能想象你能做得更好..。
发布于 2021-01-12 13:53:56
除了上面的答案,您可以做的是创建自己的基于规则的实体匹配器- https://spacy.io/usage/rule-based-matching。
在这里贴标签是没有帮助的。
https://datascience.stackexchange.com/questions/61558
复制相似问题