使用spacy python的自定义NER需要多少训练数据(句子)？

在使用 spaCy 进行自定义命名实体识别（NER）模型的训练时，训练数据的数量是一个重要因素，它直接影响模型的性能和准确性。然而，没有一个固定的数字可以适用于所有情况，因为所需的数据量取决于多种因素，包括：

实体的复杂性和多样性：如果你的实体类别非常具体或者在文本中表现形式多样，你可能需要更多的训练样本来覆盖这些多样性。
实体的稀有性：如果某些实体在文本中出现得不频繁，你需要更多的文本来确保这些稀有实体被模型学习到。
上下文的依赖性：有些实体高度依赖于上下文信息，这种情况下需要更多的例子来帮助模型理解和学习这些上下文依赖。
预训练模型的使用：如果你是在一个预训练的模型基础上进行微调，可能需要的训练数据会少一些，因为模型已经学习了大量的语言特征。

一般建议

最小数据集：对于非常简单的任务和明确的实体类型，可能从几百个句子开始就能看到一些合理的结果。
中等规模数据集：对于更常见的应用，通常建议至少有几千个句子。
大规模数据集：对于涉及多个实体类别或需要高精度和复杂上下文理解的任务，最好有上万个句子。

实际操作步骤

开始小规模：从几百个句子开始，观察模型的表现，然后逐步增加数据量。
迭代增强：在增加数据的同时，持续评估模型的性能，找到数据量与性能之间的平衡点。
数据质量：确保训练数据的质量。有时质量高的数据比数量多的数据更重要。
多样性：确保训练数据覆盖了所有你想要模型识别的实体类型和场景。

工具和技术

使用 spaCy 的 DocBin 工具来高效地存储和加载训练数据。
利用 spaCy 的命令行工具进行训练，例如使用 spacy train 命令。
考虑使用数据增强技术来人工增加训练数据的多样性和量。

不同word2vec嵌入的空间模型给出了相同的结果

、、、、

我试图通过实现我的预训练向量来提高我的spacy NER模型的性能。我使用不同的文本使用word2vec创建了自己的向量，并将它们保存在.txt文件中。然而，我得到了完全相同的分数，这似乎不对。下面是我为一个带有自定义预训练嵌入的文件执行的步骤： !python -m spacy init vectors en /content/drive/MyDrive/MODELS_W2V/JSTOR_uncleaned_sents_model.txt ./uncl_txt --name JSTOR_unlceaned_sents_model nlp = spacy.load("./uncl_

浏览 17提问于2022-09-01得票数 1

回答已采纳

1回答

如何使用100万个标记句子来提高从头开始实现的ner模型的速度

、、

我想使用spacy的NER模型从头开始训练一个使用100万个句子的模型。该模型只有两种类型的实体。这是我正在使用的代码。因为我不能共享数据，所以我创建了一个虚拟数据集。我的主要问题是模型训练时间太长。如果你能强调我代码中的任何错误，或者建议其他方法来加速训练，我将不胜感激。 TRAIN_DATA = [ ('Ich bin in Bremen', {'entities': [(11, 17, 'loc')]})] * 1000000 import spacy import random from spacy.util import mi

浏览 13提问于2019-05-04得票数 2

1回答

是否可以在现有的SpaCy模型上减少用于训练的NER模型？

我已经有了一个现有的spaCy模型，我想在运行时用额外的训练数据来改进它。例如，我的训练模型中的训练dataSet如下所示： text="Anna lives in Munich and works at BMW" entity: name=Anna entity: city=Munich entity: company=BMW 在我的实现中，在开始新的训练之前，我从现有模型中获取ner： nlp = spacy.load(modelPath) ner = nlp.get_pipe('ner') 然后我用新的TrainingData训练我现有

浏览 2提问于2020-07-29得票数 0

1回答

身份文档中的命名实体识别

、、、

我正在尝试对驾照等文档中的文本执行命名实体识别(NER)。我们已经从文档中提取了文本。我们的目标是找出哪些文本是名称、地址、国家、文件编号等。用于NER的python库NLTK和Spacy不起作用，因为没有句子来理解上下文。训练NLTK/Spacy是否有效？正则表达式模式匹配在实体提取方面有多好？下面是提取实体的示例。 1)“乔治·华盛顿”--作为名字 2)“华盛顿特区笔大道1600号，20500”--确定为地址下面是一个示例许可证，其中没有标签或部分， ?

浏览 16提问于2019-04-10得票数 0

1回答

用Spacy NER模型的反例来改进训练

、

我已经为spacy的ner模型提供了一组GoldParse对象进行训练。我现在想做的是评估它在新句子上的结果，并将每个识别的实体标记为“好”或“坏”，然后将这些信息纳入新的一批训练中。这个是可能的吗？ner模型如何从负样本中学习？

浏览 6提问于2018-03-06得票数 3

回答已采纳

1回答

使用IOB标签方案为影评数据集自定义Spacy NER

、、

我之前已经使用CRF++模型来识别电影评论数据集中的NER。然而，我发现spacy在使用和可视化方面非常有效。然而，这里的问题是，我如何在spacy中合并CRF++模型？如果这是不可能的，我如何使用IOB标签训练Spacy NER模型来满足我的需求？

浏览 1提问于2018-05-27得票数 0

1回答

有没有什么办法可以将经过eBrevia训练的模型加载到CoreNLP或Spacy中？

、、、、

我有一个来自eBrevia的经过训练的名称实体识别(NER)模型。我想知道是否有一种方法可以使用Python或Java编程将其加载到CoreNLP或Spacy中。编辑:如果预训练的模型是一个pickle模型，有没有办法使用Corenlp或Spacy来加载它？提前感谢！

浏览 12提问于2019-10-03得票数 0

1回答

我可以使用写字板或文本文档中的注释在spaCy中训练NER吗

、、、、

我是否可以使用写字板或文本文档中的注释来训练NER在spaCy中，因为使用句子或段落训练不符合我的要求。谢谢。

浏览 2提问于2018-03-06得票数 0

1回答

用于识别产品的自定义NER

、、、

我正在尝试为产品名称和它们的型号构建一个自定义的命名实体提取器。我的用例包含这样的句子："Microsoft使用了产品ABC-300，并将其与ASQ集成在一起“。上面这句话提到的产品是: ABC-300和ASQ 我已经尝试过使用Stanford和Spacy NER，这两种方法的准确性都低于预期。有没有可以用来训练自定义NER模型的数据集，可以在段落或句子中包含产品名称？用于训练的句子可以是简单的也可以是复杂的。任何类型的数据都是有用的。任何关于如何用更少的训练数据来解决这个问题的线索也将不胜感激。

浏览 7提问于2020-01-14得票数 1

2回答

使用Spacy训练NER从简历中提取技能。什么是转换中的U-实体名称

、、、

我正在使用training spacy NER从resume.But error中提取技能信息在NER模型中找不到名为“U-SKILL”的过渡训练数据： [(U“我有2年的Python经验”，{"entities"：(30，35，"SKILL")})] 代码： other_pipes = [pipe for pipe in nlp.pipe_names if pipe != "ner"] with nlp.disable_pipes(*other_pipes): optimizer = nlp.begin_training()

浏览 46提问于2019-04-17得票数 4

1回答

将NER训练数据转换为Spacy训练数据格式

、、、、

我正在使用Spacy创建一个印尼NER模型。我正在使用来自https://raw.githubusercontent.com/yohanesgultom/nlp-experiments/master/data/ner/training_data.txt的训练数据使用此标记格式的上述训练数据： Sementara itu Pengamat Pasar Modal <ENAMEX TYPE="PERSON">Dandossi Matram</ENAMEX> mengatakan, 我想将此训练数据转换为Spacy格式，即： [('Sementar

浏览 14提问于2021-05-08得票数 1

1回答

命名实体识别在实践中的应用

、、、、

我是一个尝试学习的NLP新手，我想更好地理解命名实体识别(NER)是如何在实践中实现的，例如在流行的python库(如 )中。我理解它背后的基本概念，但我怀疑我遗漏了一些细节。例如，从文档中不清楚对文本和注释数据进行了多少预处理；以及使用了什么统计模型。你知道如果：为了起作用，在训练模型之前，文本必须经过分块，对吗？否则它就不能执行任何有用的操作了？在对模型进行培训之前，文本和注释是否典型地规范化了？所以，如果一个被命名的实体处于句子的开头或中间，它仍然可以工作吗？特别是在spaCy中，事情是如何具体实现的？它是一个嗯，CRF或其他什么东西是用来建立模型？很抱歉

浏览 2提问于2018-01-16得票数 0

回答已采纳

1回答

在Spacy培训两个连续的NER管道

、、、

我正在进行一个训练分类器以识别文本中引文的项目。我们所处理的引文往往是非常混乱的。以下是一些引用的例子：见A册第3章第7段见A书第3章第7段见A书第7段的“某些章节标题”一章我们已经确定了少数实体往往出现在这些引文中。例如，“书名”、“章号”、“章名”、“段号”。该项目分为两个阶段：文本引文的二元分类引文中引文实体的分类 Spacy (我们正在使用v3)是否有可能有两个连续的NER管道？我希望分类器首先标记引文，然后标记每个引文中的实体。我能够用下面的代码用两个NER管道实例化一个模型： from spacy.lang.en import E

浏览 3提问于2021-04-25得票数 1

回答已采纳

1回答

我如何提供一个关系提取数据集，包括元组，用于临时推断使用名称实体识别空间？

、、、、

我有大约7.000句句子，其中我做了一个精炼的名称-实体-识别(即，特定的实体)使用SpaCy。现在我想做关系提取(基本上是因果推理)，我不知道如何使用NER来提供训练集。据我所知，有一种不同的方法来执行关系提取： 1)手写模式 2)有监督的机器学习 3)半监督机器学习。因为我想使用有监督的机器学习，所以我需要训练数据。如果有人能给我指路，那就太好了，非常感谢。这里是我的数据框架的屏幕拍摄，实体是由一个定制的spaCy模型提供的。我可以访问每个句子的语法依赖和部分词性标记，如spaCy提供的：

浏览 3提问于2019-07-31得票数 0

1回答

训练自定义NER Spacy模型需要多少数据/上下文？

、、、

我正在尝试使用spacy和命名实体识别从简历中提取以前的职位。我想训练spacy来检测一个自定义的命名实体类型：'JOB‘。为此，我从上获得了大约800个职位名称，我可以将其用作训练数据。在我的spacy训练数据中，我是否需要将这些职位整合到为提供上下文而添加的句子中？一般来说，在简历中，职位头衔是独立存在的，并不是完整句子的一部分。此外，如果我需要为800个标题中的每一个提供连贯的上下文，那么对于我正在尝试做的事情来说，这将是非常耗时的，所以也许除了NER之外还有其他解决方案？

浏览 45提问于2021-02-12得票数 1

回答已采纳

1回答

Spacy NER模型训练数据的改进

、、

我是新手，尝试在spacy.io的帮助下创建NER模型，我只是为ORG entity https://spacy.io/usage/training#ner创建自己的NER模型。训练数据大小为100，训练数据如下所示。 TRAIN_DATA = [ ("2003 -2005 Pergo Inc. Software Analyst\Database Administrator", {"entities": [(11, 20, "ORG")]}), ("PROFESSIONAL EXPERIENCE Client: WPS

浏览 17提问于2019-06-25得票数 2

1回答

如何使用spaCy对多个句子的实体进行预测？

、、

我用spaCy训练了一个ner模型。我知道如何使用它来识别单个句子的实体(doc对象)并可视化结果： doc = disease_blank('Example sentence') spacy.displacy.render(doc, style="ent", jupyter=True) 或 for ent in doc.ents: print(ent.text, ent.label_) 现在我要预测多个这样句子的实体。我的想法是通过他们的实体过滤句子。目前，我刚刚找到了以下方法： sentences = ['sentence 1'

浏览 7提问于2022-09-30得票数 1

回答已采纳

1回答

如何使用spaCy创建新实体并仅从关键字列表中学习

、、、、

我试图使用创建一个新的实体分类“物种”，并列出一个物种名称，例如，他能找到吗？我找到了一个教程，用于从 (Github代码)中训练新的实体类型。然而，问题是，我不想手动为每个物种的名字创建一个句子，因为这将是非常耗时的。我创建了下面的培训数据，如下所示： TRAIN_DATA = [('Bombina',{'entities':[(0,6,'SPECIES')]}), ('Dermaptera',{'entities':[(0,9,'SPECIES')]}), .... ] 我创建培训集

浏览 0提问于2018-05-29得票数 14

1回答

如何处理句子中的新行字符？

、

我试着训练spacy NER，我收集了我所有的句子，但是很多都嵌入了新的行字符'\n‘所以当我在我的jupyter笔记本中输入火车数据时，它失败了 TRAIN\_DATA = [('Who is ^ SyntaxError: EOL when scanning string literal 我该拿这些怎么办？数据如下( TRAIN_DATA = [('Who is Shaka Khan?', {'entities': [(7, 1

浏览 0提问于2018-11-10得票数 1

回答已采纳

1回答

是否有可能检索spaCy IOB转换器生成的JSON中的整个句子？

、、、

在执行了将IOB格式的数据转换为兼容spaCy的JSON的步骤后，应该表示句子的值"raw": string在我的JSON中显示为"null“。以下是我的数据(test.iob)的摘录： GRIMALTE B-PERS AMANT O DE O LA O dame B-PERS Gradisse B-PERS narre O sommairement O Les O amoureux O regredz O de O Flamete B-PERS , O qui O furent O occasion O qu

浏览 25提问于2021-05-04得票数 1

回答已采纳

1回答

spacy如何使用单词嵌入来识别命名实体(NER)？

、、、

我正在尝试使用spaCy来训练一个NER模型，以识别位置、(人)名称和组织。我试图理解spaCy是如何在文本中识别实体的，但我一直未能找到答案。从 on Github和上可以看出，spaCy使用文本中的许多特性，如POS标记、前缀、后缀以及文本中的其他字符和基于单词的特性来训练平均感知器。但是，代码中没有任何地方显示spaCy使用GLoVe嵌入(尽管句子/文档中的每个单词似乎都有它们，如果它们存在于GLoVe语料库中)。我的问题是- 这些现在已经被应用到网络系统中了吗？如果我要将单词向量切换到不同的集合，我是否应该期望性能发生有意义的变化？在代码中，我可以找到(如果全部)

浏览 3提问于2017-06-12得票数 20

1回答

差分空间的“-基-模型”和“-向量”参数用于为NER使用自定义嵌入？

、、

我训练了快速文本嵌入，并将它们保存为.vec文件。我想用这些来做我的斯宾塞模型。有什么区别吗 python -m spacy train en [new_model] [train_data] [dev_data] --pipeline ner --base-model embeddings.vec 和 python -m spacy train en [new_model] [train_data] [dev_data] --pipeline ner --vectors embeddings.vec？两种方法产生的训练损失、F评分等几乎相同。

浏览 0提问于2020-11-25得票数 0

回答已采纳

1回答

预先训练的spacy模型或spacy.blank，对于自定义NER，哪种方法是正确的？

、、、、

我想训练一个spacy自定义NER模型，哪一个是最好的选择？列车数据已准备就绪(doccano) 选项1.使用现有的预先训练的spacy模型，并使用自定义NER?进行更新。选项2.使用带有自定义NER的spacy.blank()创建一个空模型？我只想在文本中标识我的自定义实体，其他类型的实体不是necessary...currently

浏览 26提问于2020-08-25得票数 0

2回答

文档中句子间的NER相似度

、、、

我一直使用spacy来寻找sentences.My问题的NER，因为我必须计算两个不同文档的句子之间的NER相似度。在python中有没有同样的公式或包呢？提亚

浏览 1提问于2019-04-03得票数 1

1回答

Spacy v2.0.1自定义NER:如何改进现有模型的培训

、、

我第一次用bellow训练的数据实现了自定义NER，它给了我很好的名字和PrdName预测。我提到了暗号。 if __name__ == '__main__': TRAIN_DATA = [ ('My Name is Rajesh', {'entities': [(11, 17, 'Name')]}), ('My Name is Bakul', {'entities': [(11, 16, 'Name')]}),

浏览 0提问于2020-01-02得票数 1

1回答

具有大于RAM数据集的训练空间模型

、、、

我要求更好地理解使用DocBin序列化到磁盘的培训Spacy模型与通过自定义数据加载函数加载Example实例之间的一些细微差别。我们的目标是训练一个具有更多数据的Spacy NER模型，这些数据可以放入RAM (或者至少以某种方式避免将整个文件加载到RAM中)。尽管自定义数据加载器似乎是实现这一目标的一种特定方法，但我编写这个问题是为了提出更一般的问题：在培训过程中，如果不加载整个训练数据集文件，如何训练Spacy模型？

浏览 3提问于2021-12-19得票数 -1

回答已采纳

1回答

使用Spacy NER训练多词动词和名词实体

我遇到的所有NER训练实例都是名词，但是否可以使用Spacy NER训练动词和名词组合的实体。例如“搅拌锅”。我是先使用基于名词的NER，然后在此类短语上训练嵌套NER，还是直接在Spacy NER中训练该短语。我猜答案将取决于Spacy NER是否将POS和依赖功能作为其培训的一部分。

浏览 5提问于2018-10-29得票数 0

1回答

Spacy BILOU格式到spacy json格式

、、

我正在尝试升级我的spacy版本到夜间，特别是为了使用spacy transformers 因此我将spacy简单训练数据集转换为如下格式 td = [["Who is Shaka Khan?", {"entities": [(7, 17, "FRIENDS")]}],["I like London.", {"entities": [(7, 13, "LOC")]}],] 以上至 [[{"head": 0, "dep": "", "tag&#

浏览 26提问于2020-11-04得票数 1

回答已采纳

1回答

我的NER模型的性能会提高吗？

、、、

我从零开始训练一个spacy模型，通过创建我自己的数据集，spacy需要它在其中，模型是一个NER模型，而我试图识别的实体是食物项目。我已经创建了一个有263行的数据集，在此数据集上从头开始训练spacy模型之后，我的模型执行得很好(我获得了大约80%的精度)，而且这个精度看起来可能不太高，但是它更好，我现在能够更好地完成我的任务。现在我想通过增加列车数据来进一步改进我的模型。为了增加列车数据，我正在考虑使用我发送的行作为测试并手动检查spacy是否正确地识别每个实体，以及如果一个句子中的所有实体都被正确识别，那么在我的培训集中使用这个句子。我的问题是，这种方法会在任何方面改进我的模型吗？

浏览 0提问于2019-09-18得票数 0

回答已采纳

1回答

从零开始在CoNLL 2003数据上训练spaCy的NER模型得到了非常奇怪的结果

、、、、

我正在尝试从零开始使用spaCy来训练NER模型。我想首先在上试用它，因为它被广泛用作NER系统的基线。下面是我运行的命令： spacy convert -c ner train.txt valid.txt test.txt spacyConverted cd spacyConverted python -m spacy train en trained train.txt.json valid.txt.json --no-tagger --no-parser mkdir displacy python -m spacy evaluate trained/model-final test.t

浏览 1提问于2018-07-26得票数 0

2回答

Spacy从训练模型中提取命名实体关系

、、、、

如何使用Spacy创建一个新的名称实体“病例”-在传染病病例数量的上下文中，然后提取这与病例基数之间的依赖关系。例如，在以下文本中，“1995年10月9日至11月5日期间报告了879例病例，其中4例死亡。”我们想要提取"879“和”case“ 在Spacy的示例文档页面上，按照"Training a additional entity type“的代码：我使用他们现有的预训练的"en_core_web_sm“英语模型，成功地训练了一个名为"CASES”的附加实体： from __future__ import unicode_literals, print

浏览 6提问于2020-03-10得票数 1

1回答

如何将简单训练样式的数据转换为spaCy的命令行JSON格式？

我在spaCy文档的部分中有一种新NER类型的训练数据。 TRAIN_DATA = [ ("Horses are too tall and they pretend to care about your feelings", { 'entities': [(0, 6, 'ANIMAL')] }), ("Do they bite?", { 'entities': [] }), ("horses are too tall and the

浏览 5提问于2018-02-22得票数 7

回答已采纳

1回答

Python NER:添加自定义文本和标签以更新NER模型

、、、

我使用NER来清理文本，这样每个命名实体都会被替换为它的标签(PERSON、ORG等)。所以"John在苹果工作“就变成了”个人在ORG工作“。 clause_text是我的句子列表。我使用ner-d包来构建我的NER模型并清理文本，如下所示： for text in clause_text: input_text = text doc = ner.name(input_text, language='en_core_web_sm') text_label = [(X.text, X.label_) for X in doc] # r

浏览 43提问于2020-07-16得票数 0

1回答

如何使用spacy训练将实体添加到现有的自定义NER模型中？(Spacy v3.0)

、、、、

我目前正在实现一个自定义NER模型界面，用户可以与前端应用程序交互，以添加自定义实体来训练spacy模型。我想要使用空间训练(CLI)来接受现有模型(自定义NER模型)，并将用户指定的关键字和实体添加到该模型中。(而不是再次训练整个模型)。我在文件里找不到这个。例如，假设我有一个模型，它已经被训练成一个定制的食物实体。(比萨饼、意大利面、面包等…)。现在我想采用现有的模式，并为一个名为“饮料”的新实体进行培训，其中包括可口可乐、百事可乐、果汁等关键词…。对spacy v3.0使用spacy列命令。我目前使用的spacy列车命令如下： > python -m spacy train

浏览 5提问于2021-06-22得票数 2

回答已采纳

1回答

蟒蛇空间的多线程训练

、、、

我试图找到一种方法来使用多线程在spacy上训练一个新的模型。它看起来像在我的工作计算机(Ubuntu16.04Python3.5)上默认使用多线程，而不是在我的服务器上使用。知道为什么吗？关于服务器上的spaCy & env的信息 Platform Linux-3.14.32-xxxx-grs-ipv6-64-x86_64-with-Debian-8 Python version 3.4.2 Location /home/nlp/.env/lib/python3.4/site-packages/spacy Mod

浏览 0提问于2018-01-30得票数 2

回答已采纳

1回答

空间更新

、、

Spacy 展示了如何使用额外的培训示例来更新NER。然而，它使用实体偏移进行培训。在使用BILUO方案的情况下，如何执行相同的任务？我想使用训练示例，其中包含每个句子的标记列表和相应的BILUO标记。

浏览 0提问于2018-10-26得票数 0

1回答

如何识别句子的自定义关键字并在新列中分配自定义名称？

、、、

我是NLP NER (命名实体识别)领域的新手(以及一般的编程)，我正在寻找一些关于如何开始/知道如何完成项目的指导。我有一个excel文件，每行大约有5列多个句子(大约15000行)。每一行都有几段文字来自填写调查问卷的人。我想遍历每一行以确定几个特定的单词，如“热”、“冷”、“温热”、“球”、“纸”等。如果在句子中发现这些单词中的任何一个，我希望在它旁边的新列中创建一个新词来表示它-例如，在句子中找到的单词"hot“、"cold”和"temperature“在新列中将被赋予一个新词，如”temperature“；"ball”或"bat“将在新列

浏览 18提问于2021-06-05得票数 0

2回答

spacy v3中的训练NER需要在命令行中使用dev.spacy

、

我正在尝试在spacy v3中准备一个自定义的ner模型。从训练的角度来看，与v2相比，V3有了很大的变化。我使用en_web_lg的默认配置。我已经使用convert命令准备了训练数据(training.spacy)。但是，训练命令需要一个dev.spacy文件。不确定dev.spacy中需要哪些数据。这是在询问training.spacy文件的纯文本语料库吗？但是有没有办法将纯文本文件转换为spacy格式呢？来自spacy站点的命令- python -m spacy train config.cfg --output./output--paths.train./Train.spac

浏览 72提问于2021-04-08得票数 1

回答已采纳

1回答

100个培训示例是否足以培训使用spacy的自定义NER？

、、、

我训练过人名数据的NER模型。我随机生成了一些句子，其中包含了这个人的名字。我产生了大约70句话，并用spacy的格式对数据进行了注释。我使用空白的'en‘模型和'en_core_web_sm’来训练自定义的NER，但是当我测试任何字符串时。它能够在极少数的例子中检测到。这样的例子是否不足呢？ My data looks like this -: [("'Hi, I am looking for a house on rent for a year. Best Regards, Rajesh',\r", {'entities&#

浏览 0提问于2019-05-27得票数 0

回答已采纳

1回答

Spacy -错误config.file

、、、

在使用自定义标签对ner进行培训时，我以完全类似的方式创建了一个.json文件，但使用我自己的数据，如中所述。然后，我尝试使用以下命令将其转换为训练所需的二进制格式(两者都是train/dev)： python -m spacy convert train.json ./ -t spacy 哪个做了，创建了2个文件。启动培训过程时遇到的错误： [E923] It looks like there is no proper sample data to initialize the Model of component 'ner'. To check your input da

浏览 3提问于2022-01-17得票数 0

2回答

Python:读取.txt文件而不将其内容放在字符串中

、

我已经创建了一个包含模型训练数据的.txt文件。训练样本具有如下所示的特定结构： ("sample sentence", {"entities": [ ]}) 我需要在python中列出其中的600个。然而，当我使用file.readlines()等进行“普通”python读取时，我得到了作为字符串导入的所有示例，基本上如下所示： '("sample sentence",' '{"entities": [ ]})' 使训练数据对模型无效的原因。所以我的问题是，如何让python读取没有任何字符串格

浏览 9提问于2018-02-04得票数 4

回答已采纳

1回答

错误加载训练的en_core_web_trf spacyV3 NER模型

、

加载经过预训练的空间模型对定制数据进行细化 spacy.require_gpu() nlp = spacy.load("en_core_web_trf",exclude=['tagger', 'parser', 'attribute_ruler', 'lemmatizer']) 加载验证时获取错误 model=spacy.load(category_output_dir + "/%s" % itn,exclude=['tagger', 'parser', 'a

浏览 2提问于2020-11-23得票数 2

1回答

使用Spacy进行命名实体识别的交叉验证

、、、

我正在尝试在5000万个样本上训练一个自定义的NER模型。我正在使用20次迭代的进行建模。我想知道我是否应该使用交叉验证来获得更准确的样本准确性。如果是，那么交叉验证步骤应该在哪里进行？如果没有，那么我如何拆分/分发我的训练和测试数据，因为我正在使用注释和6个自定义实体，并且很难跟踪每个训练和测试数据中带注释的标签的百分比，因为它是均匀分布的。这是我用来训练的代码- def train_spacy(data, iterations): TRAIN_DATA = data # create blank Language class nlp = spacy.blank(

浏览 3提问于2019-08-01得票数 1

4回答

训练Spacy NER学习印第安人的名字

、、、、

我正在尝试定制Spacy's NER来识别印度人的名字。按照此指南进行，这是我正在使用的数据集根据代码，我应该提供以下格式的训练数据： TRAIN_DATA = [ ('Shivani', { 'entities': [(0, 6, 'PERSON')] }), ('Isha ', { 'entities': [(0,3 , 'PERSON')] }) ] 我如何向Spacy提供约12000个名称的训练数据，因为手动指定每个实

浏览 4提问于2018-03-26得票数 4

1回答

rasa小鸭模块

、、

我试着基于rasa_nlu训练我的机器人。下面是我的配置文件，我有问题，因为像“下个月”这样的实体被ner_spacy识别为不是时间数据。我希望这种类型的实体只被小鸭模块识别。谢谢语言："en“项目："nav-os”管道：-名称："nlp_spacy“模型："en”-名称："ner_spacy“-名称："tokenizer_spacy”-名称："intent_entity_featurizer_regex“-名称："intent_featurizer_spacy”-名称："ner_synonyms“-名称："i

浏览 8提问于2018-07-18得票数 0

2回答

是否有一种方法可以在不维护先前词汇表的情况下，用Python识别文本中的城市？

、、

我必须在文档中识别城市(只有字符)，我不想维护整个词汇表，因为它不是一个实用的解决方案。我也没有Azure文本分析api帐户。我已经尝试过使用Spacy，我做了ner并识别了地理位置，输出被传递给拼写检查器()来训练模型。但问题是，ner需要句子，而我的输入有单词。我对这一领域还比较陌生。

浏览 0提问于2019-08-13得票数 3

回答已采纳

2回答

如何在spaCy的INCEpTION注解文本NER中转换？(CoNLL-U到json)

、

我正在使用来注释命名实体，我想用它来训练一个带有spaCy的模型。INCEpTION中有多个选项(例如CoNLL 2000、CoNLL CoreNLP、CoNLL-U)可用于导出带注释的文本。我已经将文件导出为CoNLL-U，我想将其转换为json，因为训练spaCy的NER模块需要此文件格式。有人问过类似的问题，但答案对我没有帮助()。 spaCy的是： python -m spacy convert [input_file] [output_dir] [--file-type] [--converter] [--n-sents] [--morphology] [--lang] 我的第一个

浏览 6提问于2020-12-03得票数 3

1回答

格式化SpaCy NER的培训数据集

、、、、

我想用我自己的实体为NER训练一个空白模型。为此，我需要使用dataset，该数据集目前采用.csv格式，并以以下格式提供实体标记(我将为每个相关列提供一个示例行)：栏:句子价值:我想要苹果列:数据价值:想要；@命令；2；6，‘苹果’；@水果；7；13‘ 栏:实体价值:我“命令”水果列: entity_types 值：@bot/@命令；@bot/“食品/”水果为了训练SpaCy的NER，我需要以下形式的json训练数据： TRAIN_DATA = [ ('Who is Shaka Khan?', { 'entiti

浏览 3提问于2017-11-22得票数 6

回答已采纳

1回答

错误加载已训练的ner空间模型

、

我正在尝试加载一个经过训练的NER模型，该模型直到今天才正常加载，但是我得到了以下错误，要么导入经过训练的模型，要么导入pt_core_news_lg： nlp4 = spacy.load('/content/gdrive/My Drive/spacy_NER4') ValueError:无法创建维数为0的向量表。如果使用预先训练过的向量，是否加载了这些向量？我在Google Colab上，跟踪这些装置： !pip install spacy==2.3.4 !python -m spacy download pt_core_news_lg 当我导入我的模型时，它会产生这个错误

浏览 2提问于2022-03-25得票数 0

3回答

如何利用Spacy训练新模型并将其集成到原始模型

、、

我正在尝试用我自己的数据训练纳使用Spacy。我的问题是如何将我受过训练的NER集成到原始模型中？这样就可以方便地不断地训练和使用我的应用程序。我没有找到任何样本。我在下面找到了一些类似的例子来训练NER，但似乎所有这些都没有保存经过训练的模型，并将其集成回Spacy中。有些保存在内存中，有些保存在其他文件夹中.那么，如何以适当的方式来满足我的需求呢？谢谢！我用的是spacy 1.7.3

浏览 1提问于2017-04-13得票数 5