如何使用SpaCy和NLTK进行自定义NER标签？

SpaCy和NLTK是两个常用的自然语言处理（NLP）工具库，可以用于实现自定义命名实体识别（NER）标签。下面是使用SpaCy和NLTK进行自定义NER标签的步骤：

安装SpaCy和NLTK：首先，确保已经安装了Python和pip包管理器。然后，使用以下命令分别安装SpaCy和NLTK：

pip install spacy

pip install nltk

下载SpaCy的语言模型：SpaCy提供了多种语言模型，可以根据需要选择合适的模型。使用以下命令下载英语语言模型：

python -m spacy download en

导入必要的库和模型：在Python脚本中导入SpaCy和NLTK库，并加载已下载的语言模型。示例代码如下：

import spacy

from nltk.tokenize import word_tokenize

nlp = spacy.load('en')

准备训练数据：为了训练自定义NER模型，需要准备带有标注的训练数据。训练数据应该是一个列表，每个元素包含一个句子和对应的NER标签。示例代码如下：

training_data = [

   ("Apple is looking to buy U.K. startup for $1 billion", {"entities": [(0, 5, "ORG")]}),

   ("Microsoft acquires GitHub for $7.5 billion", {"entities": [(0, 9, "ORG")]}),

   # 添加更多的训练数据

]

在上面的示例中，"ORG"是自定义的NER标签，表示组织实体。

训练自定义NER模型：使用SpaCy的训练函数来训练自定义NER模型。示例代码如下：

def train_ner_model(training_data, iterations):

   ner = nlp.get_pipe("ner")

   for _, annotations in training_data:

       for ent in annotations.get("entities"):

           ner.add_label(ent[2])

   other_pipes = [pipe for pipe in nlp.pipe_names if pipe != "ner"]

   with nlp.disable_pipes(*other_pipes):

       optimizer = nlp.begin_training()

       for itn in range(iterations):

           losses = {}

           for text, annotations in training_data:

               doc = nlp.make_doc(text)

               example = spacy.training.Example.from_dict(doc, annotations)

               nlp.update([example], sgd=optimizer, losses=losses)

           print("Iteration:", itn, "Losses:", losses)

   return nlp

iterations = 10

custom_ner_model = train_ner_model(training_data, iterations)

在上面的示例中，iterations表示训练的迭代次数。训练完成后，custom_ner_model将包含训练好的自定义NER模型。

使用自定义NER模型进行命名实体识别：使用训练好的自定义NER模型对文本进行命名实体识别。示例代码如下：

def perform_ner(text):

   doc = custom_ner_model(text)

   entities = [(ent.text, ent.label_) for ent in doc.ents]

   return entities

text = "Apple is considering a takeover of Tesla"

entities = perform_ner(text)

print(entities)

在上面的示例中，perform_ner函数接受一个文本作为输入，并返回识别出的命名实体及其对应的标签。

这样，你就可以使用SpaCy和NLTK进行自定义NER标签的识别了。请注意，以上示例仅为演示目的，实际应用中可能需要更多的训练数据和调优步骤。关于SpaCy和NLTK的更多详细信息和用法，请参考官方文档。

参考链接：

SpaCy官方文档：https://spacy.io/
NLTK官方文档：https://www.nltk.org/

身份文档中的命名实体识别

、、、

我正在尝试对驾照等文档中的文本执行命名实体识别(NER)。我们已经从文档中提取了文本。我们的目标是找出哪些文本是名称、地址、国家、文件编号等。用于NER的python库NLTK和Spacy不起作用，因为没有句子来理解上下文。训练NLTK/Spacy是否有效？正则表达式模式匹配在实体提取方面有多好？下面是提取实体的示例。 1)“乔治·华盛顿”--作为名字 2)“华盛顿特区笔大道1600号，20500”--确定为地址下面是一个示例许可证，其中没有标签或部分， ?

浏览 16提问于2019-04-10得票数 0

1回答

我想在Python 3.x中删除句子中的非英语单词

、

我有一堆用户查询。其中也有一些包含垃圾字符的查询，例如。I work in Google asdasb asnlkasn我只需要I work in Google import nltk import spacy import truecase words = set(nltk.corpus.words.words()) nlp = spacy.load('en_core_web_lg') def check_ner(word): doc = nlp(word) ner_list = [] for token in doc.ents: n

浏览 0提问于2019-12-12得票数 1

1回答

使用IOB标签方案为影评数据集自定义Spacy NER

、、

我之前已经使用CRF++模型来识别电影评论数据集中的NER。然而，我发现spacy在使用和可视化方面非常有效。然而，这里的问题是，我如何在spacy中合并CRF++模型？如果这是不可能的，我如何使用IOB标签训练Spacy NER模型来满足我的需求？

浏览 1提问于2018-05-27得票数 0

1回答

如何识别句子的自定义关键字并在新列中分配自定义名称？

、、、

我是NLP NER (命名实体识别)领域的新手(以及一般的编程)，我正在寻找一些关于如何开始/知道如何完成项目的指导。我有一个excel文件，每行大约有5列多个句子(大约15000行)。每一行都有几段文字来自填写调查问卷的人。我想遍历每一行以确定几个特定的单词，如“热”、“冷”、“温热”、“球”、“纸”等。如果在句子中发现这些单词中的任何一个，我希望在它旁边的新列中创建一个新词来表示它-例如，在句子中找到的单词"hot“、"cold”和"temperature“在新列中将被赋予一个新词，如”temperature“；"ball”或"bat“将在新列

浏览 18提问于2021-06-05得票数 0

1回答

通过NER与Spacy合并同一人的姓名表单

、、、

我有一个文本文档，我想找出哪个人的文本是“最多的”，我的近似“大部分”将被定义为提到最多的人。我使用命名实体识别( NER )来获取所有NER的列表，然后筛选== 'PERSON‘类型。然后我得到每个人的频率分布。这是可行的，但Spacy将每个文字命名实体令牌视为不同，即“约翰史密斯”不是“约翰”或“史密斯”。是否有更好的方法来找到文本中“最重要的人”？如何获得合并/合并计数，其中不同形式的相同名称是组合的？我可以自己想出办法来做这件事，但是这个概念有一个具体的名称吗，所以我可以进一步研究。某些NLP库(例如Spacy或NLTK )有能力这样做吗？下

浏览 3提问于2021-12-03得票数 1

回答已采纳

1回答

SPACY vs NLTK word标记基准测试

、、、、

我的代码导入nltk导入spacy nlp = spacy.load("en_core_web_sm"，禁用=‘en_core_web_sm’，'ner'，'tok2vec'，'tagger'，‘attribute_标尺’，'lemmatizer') nlp.max_length = 4532554 BIGDATA = open("/Users/harikaranharithas/Downloads/data/en/en.txt"，'r') BIGDATA_R = BIGDATA.

浏览 6提问于2022-04-22得票数 -3

2回答

基于NLTK和Spacy的NLP命名实体识别

、、、、

我在NLTK和Spacy上都使用了NER这句话，下面是结果： "Zoni I want to find a pencil, a eraser and a sharpener" 我在Google上运行了以下代码。 import nltk nltk.download('punkt') nltk.download('averaged_perceptron_tagger') from nltk.tokenize import word_tokenize from nltk.tag import pos_tag ex = "Zoni I want

浏览 3提问于2019-10-02得票数 2

回答已采纳

1回答

提高Spacy中自定义命名实体识别(NER)的召回率

、、

这是我发布的另一个问题的第二部分。然而，它们的不同之处足以成为独立的问题，但也可能是相关的。上一个问题Building a Custom Named Entity Recognition with Spacy , using random text as a sample 我已经使用上一个问题中描述的方法构建了一个自定义命名实体识别(NER)。从这里，我只是复制了从Spacy网站(在这个网站https://spacy.io/usage/training#ner的“命名实体识别器”下)构建NER的方法。自定义NER在某种程度上是有效的。如果我对文本进行句子标记化，对单词进行词汇化(因此“s

浏览 34提问于2020-08-07得票数 1

1回答

无法识别使用python的两个或多个标签

、、

我对spacy和python很陌生，我正在使用python和nltk来训练我自己的spacy模型，这里是我的代码，我在这里训练数据和测试数据，如果我提供与文本数据相同的测试数据，但是我无法识别超过2个标签，而且每次我编译代码时标签识别是不同的和不正确的，我已经参考了spacy网站，但是我无法找到解决方案。请救救我！ from __future__ import unicode_literals, print_function import plac import random from pathlib import Path import spacy # new entity label

浏览 1提问于2018-04-02得票数 2

1回答

使用SpaCy Displacy可视化自定义NER标签

、、、

我是spaCy和Python的新手，我想使用这个库来可视化一个NER。这是我找到的示例： import spacy from spacy import displacy NER = spacy.load("en_core_web_sm") raw_text="The Indian Space Research Organisation or is the national space agency of India, headquartered in Bengaluru. It operates under Department of Space which is

浏览 48提问于2021-07-26得票数 1

回答已采纳

2回答

获取Spacy错误:没有名为“Spacy.Pipeline.Pipes”的模块；“spacy.pipeline”不是包

、、

我正在尝试测试一个在另一台机器上工作的模型，但是当我尝试将它导入到我的笔记本中时，我得到了这个错误: ModuleNotFoundError:没有名为‘Spacy.Pipeline.Pipes’的模块；'spacy.pipeline‘不是一个包我们已经安装了: Spacy 2.0.18 (冷冻版本，不可更新) 我正在导入： import spacy import thinc import unidecode import nltk from spacy.vocab import Vocab from spacy.language import Language from spa

浏览 106提问于2019-11-07得票数 2

回答已采纳

1回答

Spacy -预处理和词汇化需要很长时间

、、、

我正在研究文本分类问题，我尝试了WordNetLemmmatizer，然后是TF-IDF，CountVectorizer。现在，我正在尝试在提供给TF-IDF之前使用Spacy清理文本。输入文件有大约20,000条记录，每条记录只有很少的句子。文件的总大小为45MB。使用WordNet的词汇化只需要几秒钟。但是下面的代码使用Spacy的时间太长了。20分钟后，我的笔记本电脑挂起了。请建议如何优化Spacy的文本预处理和词汇化。我使用的是Spacy 2.0.12。 import spacy nlp = spacy.load('en', disable=['parser

浏览 1提问于2018-09-19得票数 0

2回答

将自定义NER模型添加到spaCy管道

、

我使用Prodi.gy创建了一个自定义的NER模型。一旦我执行了所有的处理和验证，我就将模型保存到磁盘上。我可以使用spacy.load从磁盘实例化模型，它似乎工作得很好。我现在的问题是如何将自定义NER模型添加到spacy管道中？我想要确保我的管道中有标记器、解析器等，外加我的自定义NER模型。似乎我应该从一个现有的模型(en_core_web_sm)中初始化一个基本的nlp，删除现有的NER，并用我的自定义NER替换它。这无疑是用户的错误，我只是从文档和试验/错误中找不出我做错了什么(或需要做什么)。也许我的操作是错的？也许我应该尝试将标记器和解析器添加到我的自定义模型实例化中？ I

浏览 53提问于2021-01-16得票数 1

回答已采纳

1回答

SpaCy:您如何将自定义的NER标签添加到预先培训过的模型中？

、、、

我是SpaCy和NLP的新手。我使用的是SpaCy v3.1和Python3.9.7 64位。 My objective：使用预先培训过的SpaCy模型(en_core_web_sm)，并向现有的NER标签(GPE、PERSON、MONEY等)添加一组自定义标签。这样，模型就可以同时识别默认实体和自定义实体。我看过SpaCy文档，我需要的似乎是一个，特别是一个新管道。但是，在我的工作流程中的哪一点还不清楚我应该添加这个新管道，因为在SpaCy 3中，培训是在CLI中进行的，而且从文档中我甚至不清楚在哪里调用了预培训的模型。您可能拥有的任何教程或指针都会受到高度赞赏。我认为应该这样做，但

浏览 9提问于2021-09-14得票数 7

回答已采纳

1回答

在Spacy的自定义NER训练代码中，这个循环是如何工作的？

、、

我正在编写一个代码，在Spacy的NER引擎中训练自定义实体。我被困在理解一个在线教程的代码的一小部分。这是一个。下面是代码，我无法理解注释# add labels下的两个for循环。我对蟒蛇很陌生。 import spacy ################### Train Spacy NER.########### def train_spacy(): TRAIN_DATA = convert_dataturks_to_spacy("dataturks_downloaded.json"); nlp = spacy.blank('en')

浏览 1提问于2021-01-07得票数 0

回答已采纳

1回答

使用Spacy进行命名实体识别的交叉验证

、、、

我正在尝试在5000万个样本上训练一个自定义的NER模型。我正在使用20次迭代的进行建模。我想知道我是否应该使用交叉验证来获得更准确的样本准确性。如果是，那么交叉验证步骤应该在哪里进行？如果没有，那么我如何拆分/分发我的训练和测试数据，因为我正在使用注释和6个自定义实体，并且很难跟踪每个训练和测试数据中带注释的标签的百分比，因为它是均匀分布的。这是我用来训练的代码- def train_spacy(data, iterations): TRAIN_DATA = data # create blank Language class nlp = spacy.blank(

浏览 3提问于2019-08-01得票数 1

2回答

自定义名称实体重命名

、、、、

我有以下一句话： text="The weather is extremely severe in England" 我想执行一个自定义的Name Entity Recognition (NER)过程首先，一个普通的NER过程将输出带有GPE标签的GPE pip install spacy !python -m spacy download en_core_web_lg import spacy nlp = spacy.load('en_core_web_lg') doc = nlp(text) for ent in doc.ents: pri

浏览 21提问于2022-08-08得票数 3

回答已采纳

1回答

使用Pandas dataframe进行空间依赖分析

、、、、

我想使用Spacy的依存关系解析器在我的pandas数据框架上提取名词-形容词对，用于基于方面的情感分析。我在来自Kaggle的亚马逊优质食品评论数据集上尝试了这段代码：Named Entity Recognition in aspect-opinion extraction using dependency rule matching 然而，我将我的熊猫数据帧提供给spacy的方式似乎有问题。我的结果并不是我期望的那样。有人能帮我调试一下这个吗？非常感谢。 !python -m spacy download en_core_web_lg import nltk nltk.download(

浏览 5提问于2021-04-19得票数 0

回答已采纳

1回答

如何用SpaCy从磁盘加载自定义的NER模型？

、

我已经用以下步骤定制了NER管道 doc = nlp("I am going to Vallila. I am going to Sörnäinen.") for ent in doc.ents: print(ent.text, ent.label_) LABEL = 'DISTRICT' TRAIN_DATA = [ ( 'We need to deliver it to Vallila', { 'entities': [(25, 32, 'DISTRICT')]

浏览 14提问于2022-05-03得票数 0

回答已采纳

1回答

spacy如何使用单词嵌入来识别命名实体(NER)？

、、、

我正在尝试使用spaCy来训练一个NER模型，以识别位置、(人)名称和组织。我试图理解spaCy是如何在文本中识别实体的，但我一直未能找到答案。从 on Github和上可以看出，spaCy使用文本中的许多特性，如POS标记、前缀、后缀以及文本中的其他字符和基于单词的特性来训练平均感知器。但是，代码中没有任何地方显示spaCy使用GLoVe嵌入(尽管句子/文档中的每个单词似乎都有它们，如果它们存在于GLoVe语料库中)。我的问题是- 这些现在已经被应用到网络系统中了吗？如果我要将单词向量切换到不同的集合，我是否应该期望性能发生有意义的变化？在代码中，我可以找到(如果全部)

浏览 3提问于2017-06-12得票数 20

2回答

使用Spacy训练NER从简历中提取技能。什么是转换中的U-实体名称

、、、

我正在使用training spacy NER从resume.But error中提取技能信息在NER模型中找不到名为“U-SKILL”的过渡训练数据： [(U“我有2年的Python经验”，{"entities"：(30，35，"SKILL")})] 代码： other_pipes = [pipe for pipe in nlp.pipe_names if pipe != "ner"] with nlp.disable_pipes(*other_pipes): optimizer = nlp.begin_training()

浏览 46提问于2019-04-17得票数 4

1回答

将自定义NER添加到Spacy 3管道

、、

我正在尝试构建一个基于en_core_web_sm管道的自定义Spacy管道。据我所知，在打印时，在管道名称中显示的ner已被正确添加(请参见下面)。由于某些原因，当模型在文本上测试时，我没有得到任何结果，但是当自定义ner被自己使用时，正确的实体就被提取出来并贴上标签。我使用的是Spacy 3.0.8和en_core_web_sm管道3.0.0。 import spacy crypto_nlp = spacy.load('model-best') nlp = spacy.load('en_core_web_sm') nlp.add_pipe('n

浏览 6提问于2022-05-06得票数 0

回答已采纳

1回答

不同word2vec嵌入的空间模型给出了相同的结果

、、、、

我试图通过实现我的预训练向量来提高我的spacy NER模型的性能。我使用不同的文本使用word2vec创建了自己的向量，并将它们保存在.txt文件中。然而，我得到了完全相同的分数，这似乎不对。下面是我为一个带有自定义预训练嵌入的文件执行的步骤： !python -m spacy init vectors en /content/drive/MyDrive/MODELS_W2V/JSTOR_uncleaned_sents_model.txt ./uncl_txt --name JSTOR_unlceaned_sents_model nlp = spacy.load("./uncl_

浏览 17提问于2022-09-01得票数 1

回答已采纳

1回答

提高不遵循一种格式的标签在Spacy上的精度

、、、

我在我的数据集上使用Spacy模型对NER。它显示在B地址和I地址上的标记很差。原因是我的文档中有不同类型的地址。有些以数字开头，有些以建筑物名称开头，有些以邮箱开头。知道我怎样才能提高地址标签的准确性吗？

浏览 11提问于2022-08-02得票数 2

2回答

使用spaCy 3自定义NERs训练抛出ValueError

、、、、

我正在尝试使用spacy 3添加自定义NER标签。我为旧版本找到了教程，并对spacy 3进行了调整。下面是我使用的全部代码： import random import spacy from spacy.training import Example LABEL = 'ANIMAL' TRAIN_DATA = [ ("Horses are too tall and they pretend to care about your feelings", {'entities': [(0, 6, LABEL)]}), ("Do

浏览 1提问于2021-02-22得票数 1

回答已采纳

1回答

如何仅为Spacy的NER实体的特定标签加载数据？

、、、

我刚刚开始探索spaCy，只需要GPE (全球政治实体)的名称实体识别(NER)组件。因此，为了节省加载时间，我只保留“ner”： nlp = spacy.load('en_core_web_sm', disable=['tok2vec','tagger','parser', 'senter', 'attribute_ruler', 'lemmatizer']) 然后，通过运行以下命令创建文本中存在的一组城市/州/国家： doc = nlp(txt) geo_ents =

浏览 8提问于2022-02-25得票数 1

回答已采纳

1回答

在Spacy培训两个连续的NER管道

、、、

我正在进行一个训练分类器以识别文本中引文的项目。我们所处理的引文往往是非常混乱的。以下是一些引用的例子：见A册第3章第7段见A书第3章第7段见A书第7段的“某些章节标题”一章我们已经确定了少数实体往往出现在这些引文中。例如，“书名”、“章号”、“章名”、“段号”。该项目分为两个阶段：文本引文的二元分类引文中引文实体的分类 Spacy (我们正在使用v3)是否有可能有两个连续的NER管道？我希望分类器首先标记引文，然后标记每个引文中的实体。我能够用下面的代码用两个NER管道实例化一个模型： from spacy.lang.en import E

浏览 3提问于2021-04-25得票数 1

回答已采纳

3回答

在SpaCy中用其标签替换实体

、、

SpaCy是否可以用它的标签替换SpaCy NER检测到的实体？例如：我在玩苹果Macbook的时候正在吃苹果。我用SpaCy训练了NER模型来检测“水果”实体，该模型成功地检测出第一个“苹果”为“水果”，而不是第二个“苹果”。我想对我的数据进行后处理，用它的标签替换每一个实体，所以我想用“水果”代替第一个“苹果”。这句话将是“，我在玩苹果Macbook.时正在吃水果” 如果我简单地使用regex，它将把第二个"Apple“替换为”水果“，这是不正确的。有什么聪明的办法吗？谢谢!

浏览 5提问于2019-11-05得票数 13

回答已采纳

3回答

将NER SpaCy格式转换为IOB格式

、、

我有已经以SpaCy格式标记的数据。例如： ("Who is Shaka Khan?", {"entities": [(7, 17, "PERSON")]}), ("I like London and Berlin.", {"entities": [(7, 13, "LOC"), (18, 24, "LOC")]}) 但我想尝试使用任何其他NER模型来训练它，例如BERT-NER，它需要IOB标签。有没有SpaCy数据格式到IOB的转换代码？谢谢!

浏览 0提问于2020-01-14得票数 4

1回答

Spacy3.0上的自定义NER - ValueError

、、、

我正在尝试训练Spacy3.0来识别新的非目标实体。我完全按照本文中指定的方式执行操作： for text, annot in tqdm(TRAIN_DATA): # data in previous format doc = nlp.make_doc(text) # create doc object from text ents = [] for i in annot["entities"]: start = i[0] end = i[1] label = i[2] spa

浏览 0提问于2021-03-30得票数 1

5回答

使用自定义数据进行NLTK命名实体识别

、、、

我正在尝试使用NLTK从我的文本中提取命名实体。我发现NLTK NER对于我的目的来说并不是很准确，我也想添加一些我自己的标签。我一直在试图找到一种方法来训练我自己的NER，但我似乎找不到合适的资源。我有几个关于NLTK的问题- 我可以使用自己的数据在NLTK中训练命名实体识别器吗？如果我可以使用自己的数据进行训练，_是否对要修改的文件执行entity.py操作？输入文件格式必须是IOB格式吗？埃里克·NNP B人？除了nltk食谱和使用python的nlp之外，还有什么资源我可以使用吗？在这方面我真的很感谢你的帮助

浏览 125提问于2012-07-05得票数 48

1回答

spaCy:如何使用已加载的模型将命名实体写入现有的文档对象？

、、、、

我根据如下文档从自定义令牌列表创建了一个Doc对象： import spacy from spacy.tokens import Doc nlp = spacy.load("my_ner_model") doc = Doc(nlp.vocab, words=["Hello", ",", "world", "!"]) 现在如何使用NER模型将命名实体标签写入doc？我试着做doc = nlp(doc)，但这对我提高TypeError来说不起作用。我不能像往常一样将我的单词列表连接到一个纯文本中来执行doc =

浏览 38提问于2019-10-13得票数 1

回答已采纳

1回答

将spacy NER实体标签移到顶部或底部。

、、、

我正在使用一个空间可视化工具来显示每个跨度的标签。为了更好的可视化和比较，我正在尝试将NER标签放在文本的顶部或底部。目前，我可以用以下方式来想象它们： nlp=spacy.load("en_core_web_sm") doc = nlp("This is from Texas Written by Ryan on sunday") displacy.render(doc,style="ent",jupyter=True) 作为：如何将这些实体标签移动到跨度的顶部、底部或左侧？关于设置选项的文档是；对于如何设置选项没有解释。

浏览 6提问于2022-03-29得票数 2

1回答

使用NLTK和自定义语料库(非英语)的培训人员必须使用StanfordNER？

、、

我从python的NLTK库中搜索了定制NER语料库来培训模型，但是所有的答案都直接指向nltk 第七章，并且诚实地让我搞不懂如何用如下结构的正确的流程和数据集来训练语料库： Eddy N B-PER Bonte N I-PER is V O woordvoerder N O van Prep O diezelfde Pron O Hogeschool N B-ORG . Punc O 我有一些问题：我发现了这么多的文章，如果你要用NLTK来训练定制的语料库，那么它也会使用StanfordNER库吗？或者我们可以用纯的NLTK库来做它？如果要将语法模式应用于其他语言，是否应该包括它？流程如

浏览 0提问于2021-01-11得票数 1

3回答

如何使用NLP和实体识别从文本中正确地提取诸如设施和建立等实体？

、、、、

我需要使用自然语言处理和NER从给定的文本中识别出所有的establishments和facilities。示例文本：政府致力于为城外建造新的公园、游泳池和商业综合体，并改善现有的住宅建筑群、学校和联排别墅。预期要识别的实体：公园，游泳池，商业综合体，住宅综合体，学校和联排别墅我确实探索了一些python库，比如Spacy和NLTK，但是结果并不好，只有两个实体被识别出来。我认为这些数据需要进行适当的预处理。我应该做些什么来改善结果呢？还有其他更适合这个用例的库/框架吗？有没有办法使用现有的db来训练我们的模型？

浏览 8提问于2020-10-23得票数 4

1回答

Python NER:添加自定义文本和标签以更新NER模型

、、、

我使用NER来清理文本，这样每个命名实体都会被替换为它的标签(PERSON、ORG等)。所以"John在苹果工作“就变成了”个人在ORG工作“。 clause_text是我的句子列表。我使用ner-d包来构建我的NER模型并清理文本，如下所示： for text in clause_text: input_text = text doc = ner.name(input_text, language='en_core_web_sm') text_label = [(X.text, X.label_) for X in doc] # r

浏览 43提问于2020-07-16得票数 0

1回答

如何使用Thinc模型创建自定义spaPcy管道组件

、、

我想在spaCy中创建一个自定义管道组件，它使用的是经过预处理的Thinc模型。我希望修改Thinc的输出预测，然后将修改后的值传回管道，即有效地修改ner管道组件。我正在考虑通过自定义管道组件来实现这一点，比如： from spacy.language import Language @Language.component("my_ner") def my_ner(doc): class_probabilities = thinc_do_something(data, model, num_samples) class_value = np.a

浏览 2提问于2022-06-22得票数 1

回答已采纳

1回答

有没有办法使用字典手动添加标签以识别命名实体？

、、、

我是一个初学者，我想知道是否有一种方法可以/如何使用字典手动添加标签来识别命名实体。我使用spacy进行命名实体识别，当我使用以下代码时： import spacy from spacy import display raw_text='''To determine the adulticidal and repellent activities of different solvent leafextracts of Rhinacanthus nasutus against Aedes aegypti and Culex quinquefasciatus.'

浏览 22提问于2021-10-21得票数 0

1回答

使用自定义数据训练Spacy的预定义NER模型，需要考虑复合因子、批次大小和损失值

、、、

我正在尝试训练spacy NER模型，我有大约2600个段落的数据，每个段落的长度从200到800个单词不等。我必须添加两个新的实体标签，产品和规范。如果没有最好的替代方法，这种方法是不是很好呢？如果可以，那么有没有人能给我建议合适的复合因子和批量大小的值，并且在训练时，损失值应该在范围内，有什么想法吗？到目前为止，我得到的损失值在400-5之间。 def main(model=None, new_model_name='product_details_parser', output_dir=Path('/xyz_path/'), n_iter=20): &

浏览 9提问于2019-01-05得票数 2

1回答

如何将带有命名实体的CoNNL格式的文本导入到spaCy中，用我的模型推断实体，并将它们写入相同的数据集(使用Python)？

、、、、

我有一个CoNLL NER格式的数据集，它基本上是一个带有两个字段的TSV文件。第一个字段包含来自某些文本的标记-每行一个标记(每个标点符号在这里也被视为一个标记)，第二个字段包含BIO格式的标记的命名实体标记。我想将这个数据集加载到spaCy中，为我的模型中的文本推断新的命名实体标记，并将这些标记写入与新的第三列相同的TSV文件中。我所知道的就是我可以用下面这样的东西来推断命名实体： nlp = spacy.load("some_spacy_ner_model") text = "text from conll dataset" doc = nlp(tex

浏览 20提问于2019-10-09得票数 1

1回答

是否可以在现有的SpaCy模型上减少用于训练的NER模型？

我已经有了一个现有的spaCy模型，我想在运行时用额外的训练数据来改进它。例如，我的训练模型中的训练dataSet如下所示： text="Anna lives in Munich and works at BMW" entity: name=Anna entity: city=Munich entity: company=BMW 在我的实现中，在开始新的训练之前，我从现有模型中获取ner： nlp = spacy.load(modelPath) ner = nlp.get_pipe('ner') 然后我用新的TrainingData训练我现有

浏览 2提问于2020-07-29得票数 0

1回答

他们有没有办法在新的专栏中添加新的NER标签？

、、、、

我希望能够将找到的NER标签与原始推文的已知位置进行比较。我正在使用twitter数据，并将其添加到熊猫数据框中；id，tweet，location。然后，我使用spacy和NER使用以下代码查找位置(理想情况下，只查找NER实体；GPE和LOC)，我需要它进入一个新的列。所以它应该是: ID，Tweet，已知位置，NER位置。我遇到的主要问题是让推特索引与新的NER标签相同，因为它们并不总是匹配的，例如在一条推文中发现两个NER标签。任何帮助都将不胜感激。在我准备分析之后，任何关于使用好方法的建议都将是很棒的，这样我就可以对它们进行更多的研究！谢谢 ents = [(e.text, e.s

浏览 14提问于2021-09-02得票数 0

1回答

使用tensorflow实现的spacy 3.0自定义模型

、、、

我找了又找。我找到了this git repository，它将thinc模型作为spacy中的关系提取器管道。我需要添加我的NER模型，它是使用TensorFlow作为Spacy管道实现的，我不知道添加使用thinc实现的自定义模型和使用Tensorflow实现的自定义模型有什么区别？

浏览 26提问于2021-05-05得票数 1

回答已采纳

1回答

使用Spacy NER训练多词动词和名词实体

我遇到的所有NER训练实例都是名词，但是否可以使用Spacy NER训练动词和名词组合的实体。例如“搅拌锅”。我是先使用基于名词的NER，然后在此类短语上训练嵌套NER，还是直接在Spacy NER中训练该短语。我猜答案将取决于Spacy NER是否将POS和依赖功能作为其培训的一部分。

浏览 5提问于2018-10-29得票数 0

1回答

如何从文本中获取实体并将其与源文件的id匹配？

、、、

我有一个csv文件，其中包括一个id列和一个文本列。示例源文件：我喜欢使用spaCy提取实体文本和标签。然后将实体文本和标签写入具有相应源id的dataframe。一个句子很有可能包含一个以上的实体。这些实体应该具有相同的身份。我认为使用pd应用函数是最好的选择，但我得到了一个错误。有人能告诉我我做错了什么吗？ df = pd.read_csv(r'data/test_data.csv') nlp = spacy.load("nl_core_news_lg") ner_entities = [] def get_entities(row): e

浏览 9提问于2021-12-05得票数 1

回答已采纳

2回答

如何从文本中删除html标记，同时使用Spacy NER预测命名实体，并再次使用html标记以原始格式显示相同的文本？

、、、、

我正在使用Spacy NER从文本中识别命名实体，但我有整个HTML页面作为输入，那么我如何从文本中删除所有html标记，并仅将没有html标记的原始文本提供给NER模型进行预测，在预测之后，我如何显示具有HTML标记的相同文本？我尝试了xml.etree.ElementTree删除HTML标签，这给了我没有html标签的文本，但在预测之后，我如何才能以原始格式显示带有所有html标签的文本。 import xml.etree.ElementTree def remove_html_tags(text): """Remove html tags from a

浏览 0提问于2019-08-22得票数 0

1回答

训练自定义NER模型

、、、、

我一直在一些文本上训练我的NER模型，并试图在其中找到具有自定义实体的城市。示例：- ('paragraph Designated Offices Party A New York Party B Delaware paragraph pricing source calculation Market Value shall generally accepted pricing source reasonably agreed parties paragraph Spot rate Spot Rate specified paragraph reasonably agreed

浏览 1提问于2019-12-03得票数 1

2回答

spaCy nlp流水线操作顺序

、、、

是否有人按时间顺序列出了由 import spacy nlp = spacy.load('en_core_web_sm') doc = nlp(text) 我可以看到nlp.pipe_names的主要组件 ['tagger', 'parser', 'ner'] 和一个按字母顺序排列的nlp.factories工厂操作列表 {'merge_entities': <function spacy.language.Language.<lambda>>, 'merge_noun_chunk

浏览 1提问于2018-09-28得票数 2

回答已采纳

1回答

为什么Spacy 3 NER在GPU和CPU上使用不同的管道？

、、

Spacy 'train‘命令使用命令行选项--gpu 0，允许在使用GPU和不使用GPU之间进行“最后一分钟”的选择--只使用CPU。但是，使用在GPU和CPU之间进行选择会导致(基本)配置上的重大差异。在我的例子中(与NER打交道)，我得到了两个不同的管道： for CPU：= "tok2vec"，"ner"for GPU:管线= "ner" (下面的组件设置非常不同)。由于我的GPU只有6GB的内存，所以我很快就耗尽了GPU内存--不能使用它。但是，当我切换到只使用CPU时，这两个管道之间的培训行为就大不相同了： "to

浏览 3提问于2021-05-03得票数 1

1回答

如何使用SpaCy和NLTK进行自定义NER标签？

、、、

import spacy import random from spacy.gold import GoldParse from spacy.language import EntityRecognizer train_data = [ ('Who is Chaka Khan?', [(7, 17, 'PERSON')]), ('I like London and Berlin.', [(7, 13, 'LOC'), (18, 24, 'LOC')]) ] nlp = spacy.load(&#

浏览 2提问于2018-07-31得票数 0