首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >带有SpaCy的自定义POS标记

带有SpaCy的自定义POS标记
EN

Data Science用户
提问于 2019-10-10 13:21:48
回答 2查看 1K关注 0票数 0

对NLP来说非常新,尤其是NER。我试图在自定义数据集上训练一个NER模型。这是待售房屋的数据集。作为实体的一部分,我正在训练模型来提取reference数字。它们的长度是可变的(但通常在4-9之间),看起来像G55L7LPP01Z1-32

我怎样才能给这些实体一个新的"POS标签“,据我所知,在SpaCy的默认列表中找不到匹配它们的任何东西?

理想情况下,我希望将其与已有的NER模型一起进行培训,这样我也可以提取SpaCy已经支持的SpaCy。

EN

回答 2

Data Science用户

发布于 2019-10-10 17:41:49

对于你的第一个问题,我会尝试使用Regex来识别参考数字,因为与普通单词相比,它们似乎是独一无二的。我想他们是:

  • 全资
  • 以一个或多个字母开头
  • 后跟随数
  • 任何其他模式(如字母、数字、连字符)都可以遵循。
  • 不包括空格

可能是这样的:\b[A-Z]+\d+([A-Z]|\d|-)*\b

我能想象你能做得更好..。

票数 1
EN

Data Science用户

发布于 2021-01-12 13:53:56

除了上面的答案,您可以做的是创建自己的基于规则的实体匹配器- https://spacy.io/usage/rule-based-matching

在这里贴标签是没有帮助的。

票数 0
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/61558

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档