使用实体标尺和ner管道加载预训练的自定义模型时出现空间错误 - 腾讯云开发者社区

python、spacy、spacy-3

我正在训练一个名为实体识别的自定义模型，我创建了config.cfg和train.spacy文件，其中包括，我使用它作为预先训练的向量en_core_web_lg [paths] train = null dev = null vectors = "en_core_web_lg" init_tok2vec = null 然后我用以下方法训练模型 !python -m spacy train config.cfg --output ./output --paths.train ./train.spacy --paths.dev ./train.spacy 这是可行的，我可以看到输

浏览 11提问于2022-10-27得票数 0

回答已采纳

1回答

是否可以在现有的SpaCy模型上减少用于训练的NER模型？

spacy

我已经有了一个现有的spaCy模型，我想在运行时用额外的训练数据来改进它。例如，我的训练模型中的训练dataSet如下所示： text="Anna lives in Munich and works at BMW" entity: name=Anna entity: city=Munich entity: company=BMW 在我的实现中，在开始新的训练之前，我从现有模型中获取ner： nlp = spacy.load(modelPath) ner = nlp.get_pipe('ner') 然后我用新的TrainingData训练我现有

浏览 2提问于2020-07-29得票数 0

3回答

“我的公报”上的实体未获承认

machine-learning、nlp、stanford-nlp、named-entity-recognition

我想创建一个自定义的NER模型。我就是这么做的：培训数据(斯坦福-ner.tsv)： Hello O ! O My O name O is O Damiano PERSON . O PROPERTIES (斯坦福-ner.prop)： trainFile = stanford-ner.tsv serializeTo = ner-model.ser.gz map = word=0,answer=1 maxLeft=1 useClassFeature=true useWord=true useNGrams=true noMidNGrams=true ma

浏览 1提问于2016-08-13得票数 5

回答已采纳

2回答

如何在spaCy 3.x中删除/添加自定义实体标尺中的实体

python-3.x、spacy-3

我在spacy "en_core_web_sm"模型中添加了一个定制的实体标尺。我想在需要时添加或删除其中的实体。已经回答了这个问题，但是我认为这是不正确的，因为这个人谈论的是ner组件，而不是实体统治者。这个答案的简短版本是，Spacy在添加新模式时往往会忘记以前的模式。但是，只有当您使用示例训练模型的、ner、时，才会发生这种情况。实体标尺没有对示例进行培训，它只是给出了要匹配的模式和标签，并且它对我非常有用(我在解析器组件之后添加了它)。如果我错了，请纠正我，如果我是对的，那么我如何在实体标尺中添加/删除实体(模式和标签都可以，也可以单独使用)。 def custo

浏览 9提问于2022-07-18得票数 1

回答已采纳

1回答

在新培训的spaCy NER模型中没有POS标签，如何启用？

python、spacy、named-entity-recognition、pos-tagger

我按照训练了一个NER模型，并且只启用了ner管道进行培训，因为这是我拥有的唯一数据。这是部分config [nlp] lang = "en" pipeline = ["tok2vec","ner","tagger"] batch_size = 1000 disabled = [] before_creation = null after_creation = null after_pipeline_creation = null tokenizer = {"@tokenizers":"spacy.Tok

浏览 14提问于2022-07-07得票数 1

3回答

定制模型只选择关系实体的一个令牌

nlp、stanford-nlp

我成功地训练了一个关系抽取器模型，并创建了一个.ser文件。但是，我遇到了一个问题，在这个问题中，模型成功地找到了一个关系，但是如果它的一个实体由多个令牌组成，那么只选择一个令牌()。例如，对于一个名为Friend_of的关系，以及一个类似于：山姆·塔莉最好的朋友是琼恩·雪诺。该模型将在以下实体之间找到Friend_of类型的关系：塔利琼恩这导致我的测试将此标记为假阳性，并将整个模型标记为一个糟糕的分数。我尝试使用相同的培训数据来训练自定义NER模型，然后使用这个自定义NER模型来使用我的支持文件中的以下属性来训练RelationExtractor模型：

浏览 4提问于2017-02-01得票数 2

回答已采纳

1回答

在训练新实体的Spacy模型之后，经过训练的NER模型在哪里保存？

python、model、nlp、spacy、named-entity-recognition

我仍然在学习Python和模型的创建，并且对使用Spacy的NLP非常陌生。我用训练了Spacy现有的模型-- en_core_web_sm。我已经用我的领域特定实体来训练这个模型。 def main(model="en_core_web_sm", new_model_name="new_ner_model", output_dir='/content/drive/My Drive/Data/new_model', n_iter=100): . . (code to train the model) . . # save model t

浏览 1提问于2020-11-13得票数 1

回答已采纳

1回答

如何在Spacy中创建具有多模型的NER管道

python、spacy、named-entity-recognition

我正试着训练新的实体为斯佩西纳。我尝试将我的新实体添加到现有的spacy 'en‘模型中。然而，这影响了'en'和我的新实体的预测模型。因此，我建立了一个空白模型并训练了实体识别。这个效果很好。然而，它只能预测我训练过的对象，而不能预测常规的spacy实体识别。比如说我把“马”训练成动物实体。对于给定的文本 txt ='Did you know that George bought those horses for 10000 dollars?' 我期待着下列实体得到认可 George - PERSON horses - ANIMAL 10000

浏览 0提问于2019-02-24得票数 15

2回答

再培训斯坦福NER所需的训练数据大小

stanford-nlp

可靠地重新训练斯坦福NER模型需要(最低)多少训练数据？如果我们生成手动注释的训练数据，10000个句子是否足以训练模型以提取实体-组织名称和技术名称？

浏览 1提问于2015-01-16得票数 0

1回答

tensorflow模型的再训练

machine-learning、tensorflow、named-entity-recognition

我正在用张量流编写的自定义命名实体识别(，NER)模型( NeuroNER )训练模型，我能够训练一个模型，它的性能很好，但是当我重新训练它时，它显示了不正确的结果，它纠正了它们，但是它的影响/忘记了以前的观察结果，它显示了正确的结果。我希望在线再培训.I尝试使用stanfordNLP，Spacy和现在的张量流。请建议一个更好的方法来达到预期的目标。谢谢

浏览 3提问于2017-10-06得票数 0

2回答

仅来自PhraseMatcher的空间实体

nlp、spacy

我正在为一个NLP项目使用。我有一个短语列表，我想标记为一个新的实体类型。我最初尝试过训练一个NER模型，但是由于有一个有限的术语列表，我认为简单地使用Matcher应该更容易。我在中看到，您可以根据Matcher将实体添加到文档中。我的问题是:如何对新的实体执行此操作，而不让NER管道标记任何其他标记作为该实体？理想情况下，只有通过matcher找到的令牌才应该标记为实体，但我需要将其作为标签添加到NER模型中，然后将一些标记为实体。对于如何最好地完成这一任务，有什么建议吗？谢谢!

浏览 2提问于2018-03-04得票数 4

回答已采纳

1回答

差分空间的“-基-模型”和“-向量”参数用于为NER使用自定义嵌入？

python、spacy、fasttext

我训练了快速文本嵌入，并将它们保存为.vec文件。我想用这些来做我的斯宾塞模型。有什么区别吗 python -m spacy train en [new_model] [train_data] [dev_data] --pipeline ner --base-model embeddings.vec 和 python -m spacy train en [new_model] [train_data] [dev_data] --pipeline ner --vectors embeddings.vec？两种方法产生的训练损失、F评分等几乎相同。

浏览 0提问于2020-11-25得票数 0

回答已采纳

1回答

在Spacy培训两个连续的NER管道

python、spacy、named-entity-recognition、spacy-3

我正在进行一个训练分类器以识别文本中引文的项目。我们所处理的引文往往是非常混乱的。以下是一些引用的例子：见A册第3章第7段见A书第3章第7段见A书第7段的“某些章节标题”一章我们已经确定了少数实体往往出现在这些引文中。例如，“书名”、“章号”、“章名”、“段号”。该项目分为两个阶段：文本引文的二元分类引文中引文实体的分类 Spacy (我们正在使用v3)是否有可能有两个连续的NER管道？我希望分类器首先标记引文，然后标记每个引文中的实体。我能够用下面的代码用两个NER管道实例化一个模型： from spacy.lang.en import E

浏览 3提问于2021-04-25得票数 1

回答已采纳

1回答

从Google笔记本上运行java命令

python-3.x、google-colaboratory

我正试图在Google上训练一个定制的NER模型。我在VM上安装了Java，并运行以下命令来调用NER jar文件。但似乎什么都没发生。 import subprocess subprocess.call(['java', '-jar', '/content/gdrive/stanford-ner.jar', 'edu.stanford.nlp.ie.crf.CRFClassifier', '-prop prop.txt']) 我在屏幕上看到一个，但没有受过训练的模型。我尝试了子进程，但是命令没有执行。 impo

浏览 3提问于2019-11-06得票数 1

1回答

训练自定义NER模型

python、machine-learning、nltk、spacy、named-entity-recognition

我一直在一些文本上训练我的NER模型，并试图在其中找到具有自定义实体的城市。示例：- ('paragraph Designated Offices Party A New York Party B Delaware paragraph pricing source calculation Market Value shall generally accepted pricing source reasonably agreed parties paragraph Spot rate Spot Rate specified paragraph reasonably agreed

浏览 1提问于2019-12-03得票数 1

2回答

是否可以在spaCy中的实体链接候选生成中使用NER-Label？

python、spacy、named-entity-recognition、entity-linking

我想使用spaCy进行实体链接(EL)。我已经在我的领域特定语料库上训练了一个带有自定义标签的spaCy命名实体识别(NER)模型。但是，我的以下示例将使用常规实体标签PERSON和LOCATION。在知识库( KB )中设置别名，知识库返回识别出的实体出现的候选，例如"Paris“的候选可以是维基数据条目Q47899 (巴黎希尔顿)、Q7137357 (巴黎西门)、Q5214166 (丹·巴黎)、Q90 (法国首都巴黎)或Q830149 (巴黎，美国得克萨斯州拉马尔县首府)。我的问题与已识别的实体标签有关。如果NER将"Paris“识别为人称，则从候选人中排除Q90 (法

浏览 6提问于2020-10-09得票数 1

1回答

NLTK的ne_chunk和NER的stanza之间的区别？

python、nlp、nltk、stanford-nlp、named-entity-recognition

对不起，这是我的第一个问题！我开始在python上进行命名实体识别，并使用了ne_chunk和stanza。我想知道他们为NER预先训练的模型之间的区别。它们如何识别命名实体？

浏览 1提问于2020-11-04得票数 0

2回答

Spacy 2.0 NER训练

nlp、training-data、named-entity-recognition、spacy

在SpacyV1中，可以通过以BILOU格式提供文档和实体注释列表来训练NER模型。然而，在V2中，似乎只有通过提供像这样的实体注释(7、13、'LOC')才有可能进行培训，因此可以使用敌意偏移和实体标记。以BILOU格式提供令牌列表和另一个实体标记列表的旧方法是否仍然有效？根据我从文档中收集到的信息，它看起来像是nlp.update方法接受了一个GoldParse对象列表，这样我就可以为每个文档创建一个GoldParse对象，并将BILOU标记传递给它的实体属性。但是，我是否会忽略GoldParse类的其他属性(例如头或标记、 )而丢失重要信息，还是不需要其他属性来训练

浏览 5提问于2017-11-10得票数 3

回答已采纳

1回答

斯坦福CoreNLP:如何将一个标准的、但经过俄罗斯训练的NER模型与完全自定义的lemmatisation模型集成在一起？

nlp、stanford-nlp、named-entity-recognition

作为我大学项目的一部分，我目前正在研究一种适用于俄语的共指标记算法，基于斯坦福大学的CoreNLP。在很大程度上，这很容易:已经有了俄罗斯的lemmatisation和PoS标记模型。然而，没有用于该语言的NER模型，至少基于CoreNLP，因此，我必须使用CoreNLP的统计方法自己训练这样的模型。问题在于如何使这个新的经过训练的NER模型适应lemmatisation和PoS- to模型。虽然我的模型是纯统计的，仍然基于原始的CoreNLP代码，但另外两个完全不同。因此，我实际上不能让我的NER集成它们。你怎么能做到这一点呢？相关代码为： props.setProperty("

浏览 21提问于2019-03-17得票数 0

1回答

使用预先培训的BERT模型添加模型无法识别的附加单词

bert-language-model、named-entity-recognition、pre-trained-model

我想要一些帮助，在现有的BERT模式中添加更多的单词。我有两种方法，请指导我：我正在处理域的NER任务：伯特承认的UNK没有几个单词(不确定确切的数字)，但这些实体是模型需要识别的。预先训练的模型在提供标记数据和微调模型的同时，能很好地(高达80%)学习“基于bert-base-cased”的准确性，但是直观地说，如果模型能够识别所有实体，那么它将学习得更好。我需要在vocabs.txt中添加那些未知的实体并重新训练模型吗？我需要从零开始训练伯特模型吗？谢谢..。

浏览 2提问于2020-11-13得票数 1