训练NER模型以识别自定义实体

、

我正在为我的硕士论文开发一个命名实体识别功能。我想利用"en_core_web_sm“语言包来训练识别产品的能力。在训练模型之前，未经训练的模型("en_core_web_sm")能够识别不同的实体，如“PERSON”、“ORG”、“GPE”、“DATE”、……在“验证句子中。产品偶尔会被识别，但标签通常是不正确的。在训练模型之后，只

浏览 22提问于2021-06-23得票数 1

回答已采纳

1回答

使用深度学习或机器学习模型验证名字和姓氏

、、

有什么深度学习/ ML模型可以让我区分2吗？

浏览 4提问于2022-05-26得票数 0

回答已采纳

1回答

、

目前，我能够训练NER模型来识别Location、Person、Organization的定制值，但是我如何训练NER模型来识别其他实体，如Skill、Proofs、Vehicle..etc。

浏览 5提问于2018-07-30得票数 0

1回答

在Azure ML中自定义命名实体识别模型

、、

我们可以在Azure ML Studio中使用单独的训练数据集自定义命名实体识别(NER)模型吗？我想要做的是从文本中找出非英语的名字。(训练数据集包括将用于训练的名称集)

浏览 6提问于2016-08-22得票数 3

1回答

我试图从推特上找到一个特定位置的名字，并对我从搜索中得到的点击进行情感分析。我面临的问题是，我正在寻找一个位置，它的名字是"Sammy's Tap and Grill"，搜索结果没有任何结果。我需要搜索像"Sammys“或"Sammy's”之类的东西才能找到一些线索。或者，当我搜索“帝国大厦”时，我不能单独搜索“帝国”，它会给出一些奇怪的推文，包括玛雅帝国和乔拉帝国。所以我必须在这里搜索“帝国大厦”或“帝国大厦”。那么，有一个NLP技巧，我可以做一些事情，并寻找最好的名称，从全名的位置，得到最相关的点击？我只是想出一个解决办法，检查我得到的点击是

浏览 2提问于2018-02-20得票数 0

回答已采纳

1回答

识别上下文的命名实体识别

、、

我使用一个NER模型来提取文本中显示的治疗(冰、热或OTC)，但是治疗有多个上下文。建议HomecarePatient患者在家庭治疗时使用冰袋治疗膝盖--在临床治疗中给冰袋治疗--在诊所。在以上所有句子中，NER模型都提取冰包作为治疗实体，但如何使它学习上下文并进一步识别治疗是家庭建议还是临床治疗。应该根据周围的单词来学习上下文(继续和遵循这两个词)。我不想在NER之上使用基于规则的技术，我已经使用了这些技术，但我希望以一种更复杂的方式这样做。对于<

浏览 2提问于2021-07-14得票数 2

1回答

如何识别文本中的实体即光学字符识别(OCR)的输出？

、、、、

因此，在将其传递到分类模型之前，我不知道如何分割/合并行。有没有办法使用NLP，我可以根据目标类来分割段落。换句话说，给定的输入段落根据目标标签将其拆分。

浏览 1提问于2019-03-03得票数 6

回答已采纳

2回答

是否可以在spaCy中的实体链接候选生成中使用NER-Label？

、、、

我想使用spaCy进行实体链接(EL)。我已经在我的领域特定语料库上训练了一个带有自定义标签的spaCy命名实体识别(NER)模型。但是，我的以下示例将使用常规实体标签PERSON和LOCATION。在知识库( KB )中设置别名，知识库返回识别出的实体出现的候选，例如"Paris“的候选可以是维基数据条目Q47899 (巴黎希尔顿)、Q7137357 (巴黎西门)、Q5214166 (丹·巴黎)、我的问题

浏览 6提问于2020-10-09得票数 1

1回答

将自定义训练的NER模型与斯坦福CoreNLP中现有的默认模型集成

、、

我已经通过以下链接训练了语料库。https://www.sicara.ai/blog/2018-04-25-python-train-model-NTLK-stanford-ner-tagger 数据集是一些我训练过的健康博客(英文版我能够成功地在我的新看不见的文本上运行这个模型。问题:我面临的问题是，我想在斯坦福CoreNLP中运行我的自定义英语NER模型和默认的英语模型。期望的结果:我希望Stanford默

浏览 22提问于2019-09-24得票数 1

回答已采纳

1回答

Spacy:如何确定过拟合的参数？

、、、

为了训练新的自定义实体，我们可以使用这里提到的步骤训练模型：Losses: {'ner': 3091.347521599567}Losses:

浏览 1提问于2019-08-22得票数 1

1回答

预先训练的spacy模型或spacy.blank，对于自定义NER，哪种方法是正确的？

、、、、

我想训练一个spacy自定义NER模型，哪一个是最好的选择？列车数据已准备就绪(doccano) 选项1.使用现有的预先训练的spacy模型，并使用自定义NER?进行更新。选项2.使用带有自定义NER的spacy.blank()创建一个空模型？我只想在文本中标识我的自定义实体，其他类型的实体不是necessary...currently

浏览 26提问于2020-08-25得票数 0

1回答

如何处理NLP中的两种实体提取方法

、、

因此，我使用组件ner_spacy和ner_crf来创建模型。之后，我用python构建了一个小的辅助脚本来评估模型的性能。在那里，我注意到模型很难选择正确的敌意。例如，对于单词'X‘，它从SpaCy中选择了预定义的enity 'ORG’，但它应该被识别为我在训练数据中定义的自定义enity。如果我只是使用ner_crf提取器，我在识别像大写字母这样的位置时会遇到很大的问题。另外，我最大的问题之一

浏览 2提问于2019-03-05得票数 1

1回答

自定义Spacy NER模型的总体F得分与单个实体的F得分之间的巨大差异

、、、

我正在使用Spacy训练一个自定义NER模型，该模型使用6个实体的5000个文本条目的样本。当在一个看不见的样本(500个文本条目)上评估训练后的模型时，我为整个模型(93.8)获得的F分数在任何单个实体的F分数之间有很大差异。有人能帮我理解整体F分数是如何计算的吗?为什么整体F分数和单个实体分数之间有这么大的差异？我使用Spacy构建了自己的自定义命名实体<e

浏览 14提问于2019-07-31得票数 1

回答已采纳

1回答

用于提取信息(恶意软件名称)和过滤的java和nlp

、、

我一直在思考并致力于一种自制的算法，从数据集中提取恶意软件的名称。结果并不那么令人乐观。torrentlocker payment sitefinancial services;malicious sources/malnets;personal siteslocky;malware;dark;stealing;infect

浏览 17提问于2017-07-27得票数 0

回答已采纳

1回答

如何选择和创建机器学习的自然语言数据

、、

例如，对于命名实体识别任务，我了解到索引和生物编码是常用的数据格式。它们对于机器学习是否有不同的特性，我应该根据训练模型的要求选择输入数据格式吗？

浏览 0提问于2021-07-12得票数 1

回答已采纳

1回答

训练自定义NER模型以识别实体

我们正在使用NER模型来识别像org，percent，money，number等实体-我们想添加一个实体(我不认为我们可以扩展模型)，或者建立另一个模型来标记这些实体(我们希望对金融证券进行分类)。我刚刚开始关注这一点，并使用了到目前为止可用的模型。我正在寻找来开始定制模型，是否有我需要查看的样本数据文件？这是否仍然意味着唯一可以标记的实体是已经可用的实体，如组织、日期、金钱、位

浏览 13提问于2018-03-01得票数 0

1回答