开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

spaCy 2.0:保存并加载自定义NER模型

spaCy是一个流行的自然语言处理（NLP）库，用于处理文本数据。它提供了许多功能，包括分词、词性标注、命名实体识别（NER）等。

保存并加载自定义NER模型是spaCy 2.0中的一个重要功能。NER是一种在文本中识别和分类命名实体的技术。自定义NER模型允许用户根据自己的需求训练和使用特定领域的命名实体识别模型。

要保存自定义NER模型，可以使用spaCy的to_disk方法将模型保存到磁盘上的文件夹中。例如，可以使用以下代码保存模型：

import spacy

nlp = spacy.load("en_core_web_sm")  # 加载预训练的英文模型
# 在模型中添加自定义的命名实体识别规则
nlp.add_pipe("ner", name="custom_ner", config={"labels": ["CUSTOM_ENTITY"]})
# 训练模型
# ...

# 保存模型
nlp.to_disk("custom_ner_model")

加载自定义NER模型时，可以使用spaCy的load方法加载保存的模型文件夹。例如，可以使用以下代码加载模型：

import spacy

nlp = spacy.load("custom_ner_model")

加载后，可以使用加载的模型进行命名实体识别。例如：

doc = nlp("This is a sentence with a CUSTOM_ENTITY.")
for ent in doc.ents:
    print(ent.text, ent.label_)

以上代码将输出识别到的命名实体及其标签。

spaCy的自定义NER模型可以应用于各种场景，例如实体识别、信息抽取、文本分类等。它可以帮助用户从文本中提取出特定的实体信息，如人名、地名、组织机构名等。

腾讯云提供了一系列与自然语言处理相关的产品和服务，其中包括腾讯云智能语音、腾讯云智能机器翻译等。这些产品可以与spaCy等NLP工具结合使用，提供更全面的自然语言处理解决方案。您可以访问腾讯云官方网站了解更多详情和产品介绍。

参考链接：

spaCy官方网站：https://spacy.io/
腾讯云智能语音：https://cloud.tencent.com/product/tts
腾讯云智能机器翻译：https://cloud.tencent.com/product/tmt

相关搜索:spaCy 2.0:从excel文件加载训练数据自定义NER模型问题 Spacy 3.0培训自定义NER -->验证此自定义NER模型 spacy 3训练自定义ner模型 SpaCy将模型保存到磁盘时出现自定义Sentencizer错误使用Tensorflow 1.x加载使用Tensorflow 2.0保存的模型使用自定义方法保存/加载Keras模型保存YOLOv3模型状态并加载保存并加载Pytorch模型加载保存的NER变压器模型会导致AttributeError？加载自定义训练的spaCy模型

相关搜索:

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

使用SpaCy构建自定义 NER 模型

命名实体识别（NER）是一种自然语言处理技术，用于在给定的文本内容中提取适当的实体，并将提取的实体分类到预定义的类别下。简单来说，NER 是一种用于从给定文本中提取诸如人名、地名、公司名称等实体的技术。在信息检索方面，NER 有其自身的重要性。

04

NLP研究者的福音—spaCy2.0中引入自定义的管道和扩展

以前版本的spaCy很难拓展。尤其是核心的Doc，Token和Span对象。他们没有直接实例化，所以创建一个有用的子类将涉及很多该死的抽象（想想FactoryFactoryConfigurationFactory类）。继承无法令人满意，因为它没有提供自定义组合的方法。我们希望让人们开发spaCy的扩展，并确保这些扩展可以同时使用。如果每个扩展都需要spaCy返回一个不同Doc子集，那就没办法实现它了。为了解决这个问题，我们引入了一个新的动态字段（dynamic field），允许在运行时添加新的特性，属性和

09

5分钟NLP：快速实现NER的3个预训练库总结

在文本自动理解的NLP任务中，命名实体识别(NER)是首要的任务。NER模型的作用是识别文本语料库中的命名实体例如人名、组织、位置、语言等。

04

如何使用 Neo4J 和 Transformer 构建知识图谱

在这篇文章中，我将展示如何使用经过优化的、基于转换器的命名实体识别（NER）以及 spaCy 的关系提取模型，基于职位描述创建一个知识图谱。这里介绍的方法可以应用于其他任何领域，如生物医学、金融、医疗保健等。

03

瑞士小哥开源文本英雄Texthero：一行代码完成数据预处理，网友：早用早下班！

如果你已经处理过文本数据并应用过一些机器学习算法，那么你肯定了解「NLP 管道」是多么复杂。

02

[自然语言处理|NLP] 命名实体识别（NER）

自然语言处理（NLP）领域中的命名实体识别（NER）是一项关键任务，旨在从文本中提取具有特定意义的实体，如人名、地名、组织机构、日期等。这项技术在信息提取、问答系统、机器翻译等应用中扮演着重要角色。本文将深入探讨NER的定义、工作原理、应用场景，并提供一个基于Python和spaCy库的简单示例代码。

利用BERT和spacy3联合训练实体提取器和关系抽取器

NLP技术最有用的应用之一是从非结构化文本（合同、财务文档、医疗记录等）中提取信息，这使得自动数据查询能够有用武之地。

02

fastNLP工具包，快速实现序列标注模型

fastNLP是一款轻量级的自然语言处理（NLP）工具包，目标是快速实现NLP任务以及构建复杂模型。

02

号称世界最快句法分析器，Python高级自然语言处理库spaCy

spaCy是Python和Cython中的高级自然语言处理库，它建立在最新的研究基础之上，从一开始就设计用于实际产品。spaCy带有预先训练的统计模型和单词向量，目前支持20多种语言的标记。它具有世界上速度最快的句法分析器，用于标签的卷积神经网络模型，解析和命名实体识别以及与深度学习整合。它是在MIT许可下发布的商业开源软件。 spaCy项目由@honnibal和@ines维护，虽然无法通过电子邮件提供个人支持。但开源者相信，如果公开分享，会让帮助更有价值，可以让更多人从中受益。（Github官方地址：

08

Prodigy，从根本上有效的自主学习驱动的注释工具

Prodigy是一种非常高效的机器教学工具，数据科学家可以在无需外部注释的情况下，为新功能创建端到端原型，并且可以顺利地进行生产。无论你是在进行实体识别、意图检测还是图像分类，Prodigy都可以帮助你更快地训练和评估你的模型。注释通常是项目停滞的部分。有了Prodigy，你可以在吃早餐的时候生成一个想法，并在午餐之前就能为你的想法得到结果。一旦模型得到了训练，你就可以将其导出为一个版本化的Python包，从而使系统更容易地投入生产。 1. 打开并快速运行。你可以直接开箱使用Prodigy——你所需要的就

什么是Rasa智能机器人？如何与LLM结合？

之前写过一篇介绍用Rasa结合类似于GPT这种LLM应用的项目：RasaGpt——一款基于Rasa和LLM的聊天机器人平台

03

利用维基百科促进自然语言处理

作者 | Nicola Melluso 编译 | VK 来源 | Towards Data Science

03

复旦邱锡鹏团队最新成果fastHan：基于BERT的中文NLP集成工具

fastHan 是基于 fastNLP 与 PyTorch 实现的中文自然语言处理工具，像 spacy 一样调用方便。其内核为基于 BERT 的联合模型，其在 13 个语料库中进行训练，可处理中文分词、词性标注、依存句法分析、命名实体识别四项任务。

01

从“London”出发，8步搞定自然语言处理（Python代码）

【新智元导读】自然语言处理是AI的一个子领域，从人们日常沟通所用的非结构化文本信息中提取结构化数据，以便计算机理解。本文用通俗易懂的语言深入浅出的介绍了自然语言处理，并用Python实现了几个非常有趣的实例。

02

实体识别(1) -实体识别任务简介

命名实体识别(Named Entity Recognition,简称NER) , 是指识别文本中具有特定意义的词（实体），主要包括人名、地名、机构名、专有名词等等,并把我们需要识别的词在文本序列中标注出来。

02

初学者|一文读懂命名实体识别

本文对自然语言基础技术之命名实体识别进行了相对全面的简绍，包括定义、发展历史、常见方法、以及相关数据集，最后推荐一大波python实战利器，并且包括工具的用法。

01

【NLP】竞赛必备的NLP库

本周我们给大家整理了机器学习和竞赛相关的NLP库，方便大家进行使用，建议收藏本文。

01

初学者|一文读懂命名实体识别

本文对自然语言基础技术之命名实体识别进行了相对全面的简绍，包括定义、发展历史、常见方法、以及相关数据集，最后推荐一大波python实战利器，并且包括工具的用法。

05

计算机如何理解我们的语言？NLP is fun！

【导读】我们从日常每天都会用到的推荐系统到现在研究火热的开放性聊天、对话机器人，越来越多的产品与应用的背后都需要自然语言处理（NLP）和知识图谱的技术。也有越来越多的学者与工作人员投身于 NLP 领域的研究。为什么要研究NLP呢？如果计算机想要更好的理解人类的语言，拥有更好的人机交互体验，都离不开 NLP。那么，计算机到底是如何理解人类语言的？接下来让我们跟着作者 Adam Geitgey ，和他一起体会自然语言处理技术里那些有意思的事情。

03

入门 | 自然语言处理是如何工作的？一步步教你构建 NLP 流水线

计算机非常擅长使用结构化数据，例如电子表格和数据库表。但是我们人类通常用文字交流，而不是使用电子表格来交流。这对计算机来说不是一件好事。

03

独家 | 快速掌握spacy在python中进行自然语言处理（附代码&链接）

本文简要介绍了如何使用spaCy和Python中的相关库进行自然语言处理(有时称为“文本分析”)。以及一些目前最新的相关应用。

02

用维基百科的数据改进自然语言处理任务

自然语言处理(NLP)正在兴起。计算语言学和人工智能正在加入它们的力量，促进突破性发现。虽然研究集中在显著提高NLP技术上，但企业正在把这项技术视为一项战略资产。这种由NLP引导的突破性创新的主要作用是大量可用的文本数据。谈到数字化时，尤其是对于企业来说，重要的是要记住文档是知识的主要来源。

01

Python自然语言处理工具小结

作者：伏草惟存来源：http://www.cnblogs.com/baiboy/p/nltk2.html 1 Python 的几个自然语言处理工具 NLTK:NLTK 在用 Python 处理自然语言的工具中处于领先的地位。它提供了 WordNet 这种方便处理词汇资源的借口，还有分类、分词、除茎、标注、语法分析、语义推理等类库。 Pattern:Pattern 的自然语言处理工具有词性标注工具(Part-Of-Speech Tagger)，N元搜索(n-gram search)，情感分析(senti

07

必备！人工智能和数据科学的七大 Python 库

本文作者Favio Vázquez从2018年开始发布《数据科学和人工智能每周文摘：Python & R》系列文章，为数据科学家介绍最好的库、repos、packages以及工具。

01

自然语言处理的奥秘与应用：从基础到实践

自然语言处理（Natural Language Processing，NLP）是人工智能领域中备受关注的研究领域之一，它旨在使计算机能够理解、处理和生成自然语言文本。从智能助手到情感分析，NLP技术已经在各种领域中取得了巨大的成功。本文将带您深入探讨NLP的核心原理、常见任务以及如何使用Python和NLP库来实现这些任务。我们将从基础开始，逐步深入，帮助您了解NLP的奥秘。

03

spaCy 2.1 中文模型下载

spaCy是最流行的开源NLP开发包之一，它有极快的处理速度，并且预置了词性标注、句法依存分析、命名实体识别等多个自然语言处理的必备模型，因此受到社区的热烈欢迎。中文版预训练模型包括词性标注、依存分析和命名实体识别，由汇智网提供

02

2022年必须要了解的20个开源NLP 库

在本文中，我列出了当今最常用的 NLP 库，并对其进行简要说明。它们在不同的用例中都有特定的优势和劣势，因此它们都可以作为专门从事 NLP 的优秀数据科学家备选方案。每个库的描述都是从它们的 GitHub 中提取的。

01

Github 项目推荐 | 用于构建端对端对话系统和训练聊天机器人的开源库 —— DeepPavlov

DeepPavlov 是一个开源的会话 AI 库，建立在 TensorFlow 和 Keras 之上，用于以下设计： NLP和对话系统研究；实施和评估复杂的会话系统。该库旨在为研究人员提供：一个用于测试和评估对话模型的框架，并方便他们分享这些模型；一组预定义的 NLP 模型/对话系统组件和 pipeline；对话模型的基准环境和系统化的相关数据集访问。为 AI 应用的开发者提供：构建会话软件的框架；应用程序与相邻基础设施集成的工具。安装用 Python 3.6 创建一个虚拟环境： v

09

【数据竞赛】Kaggle实战之特征工程篇-20大文本特征（下）

针对梯度提升树模型对文本特征进行特征工程，我们需要充分挖掘Label编码丢失的信息，例如上面的名字特征，内部存在非常强的规律，Mr等信息，这些信息反映了性别相关的信息，如果直接进行Label编码就会丢失此类信息，所以我们可以通过文本技巧对其进行挖掘。在本文中，我们对现在常用的文本特征进行汇总。在上篇中介绍过的此处不在赘述。

02

一文读懂命名实体识别

本文对自然语言基础技术之命名实体识别进行了相对全面的介绍，包括定义、发展历史、常见方法、以及相关数据集，最后推荐一大波 Python 实战利器，并且包括工具的用法。

01

5分钟NLP - SpaCy速查表

SpaCy 是一个免费的开源库，用于 Python 中的高级自然语言处理包括但不限于词性标注、dependency parsing、NER和相似度计算。它可帮助构建处理和理解大量文本的应用程序可用于多种方向，例如信息提取、自然语言理解或为深度学习提供文本预处理。

03

目前常用的自然语言处理开源项目/开发包大汇总

中文主要有：NLTK，FoolNLTK，HanLP（java版本），pyhanlp（python版本），Ansj，THULAC，结巴分词，FNLP，哈工大LTP，中科院ICTCLAS分词，GATE，SnowNLP，东北大学NiuTrans，NLPIR，；

02

NLP入门+实战必读：一文教会你最常见的10种自然语言处理技术（附代码）

大数据文摘作品编译：糖竹子、吴双、钱天培自然语言处理（NLP）是一种艺术与科学的结合，旨在从文本数据中提取信息。在它的帮助下，我们从文本中提炼出适用于计算机算法的信息。从自动翻译、文本分类到情绪分析，自然语言处理成为所有数据科学家的必备技能之一。在这篇文章中，你将学习到最常见的10个NLP任务，以及相关资源和代码。为什么要写这篇文章？对于处理NLP问题，我也研究了一段时日。这期间我需要翻阅大量资料，通过研究报告，博客和同类NLP问题的赛事内容学习该领域的最新发展成果，并应对NLP处理时遇到的各类状

02

NLP中的文本分析和特征工程

在本文中，我将使用NLP和Python解释如何分析文本数据并为机器学习模型提取特征。

02

做项目一定用得到的NLP资源【分类版】

原文链接：https://github.com/fighting41love/funNLP

04

提供基于transformer的pipeline、准确率达SOTA，spaCy 3.0正式版发布

spaCy 是具有工业级强度的 Python NLP 工具包，被称为最快的工业级自然语言处理工具。它支持多种自然语言处理的基本功能，主要功能包括分词、词性标注、词干化、命名实体识别、名词短语提取等。

02

使用 spacy 进行自然语言处理（一）

自然语言处理(NLP) 是人工智能方向一个非常重要的研究领域。自然语言处理在很多智能应用中扮演着非常重要的角色，例如：

01

学界 | 回望2017，基于深度学习的NLP研究大盘点

在过去的几年里，深度学习（DL）架构和算法在诸如图像识别和语音处理等领域取得了世人瞩目的进步。然而在最开始的时候，深度学习在自然语言处理（Natural Language Processing, NLP）领域的效果一般，但是现在已经被证实深度学习在自然语言处理领域依然能够发挥巨大的作用。并且在一些常见的自然语言处理任务中，基于深度学习的方法已经取得了最佳的结果。神经网络模型在诸如命名实体识别（Named entity recognition, NER）、词性标注（Part of speech tagging

05

PaddleHub实战篇{ERNIE实现文新闻本分类、ERNIE3.0 实现序列标注}【四】

【一】ERNIE：飞桨开源开发套件，入门学习，看看行业顶尖持续学习语义理解框架，如何取得世界多个实战的SOTA效果？_汀、的博客-CSDN博客_ernie模型

02

Tweets的预处理

自然语言处理是机器学习的一个领域，涉及到对人类语言的理解。与数字数据不同，NLP主要处理文本。探索和预处理文本数据需要不同的技术和库，本教程将演示基础知识。

01

Python自然语言处理面试：NLTK、SpaCy与Hugging Face库详解

NLTK、SpaCy与Hugging Face库作为Python自然语言处理（NLP）领域的三大主流工具，其理解和应用能力是面试官评价候选者NLP技术实力的重要标准。本篇博客将深入浅出地探讨Python NLP面试中与NLTK、SpaCy、Hugging Face库相关的常见问题、易错点，以及如何避免这些问题，同时附上代码示例以供参考。

00

Transformer模型训练教程02

本教程将手把手地带你了解如何训练一个Transformer语言模型。我们将使用TensorFlow框架,在英文Wikipedia数据上预训练一个小型的Transformer模型。教程涵盖数据处理、环境配置、模型构建、超参数选择、训练流程等内容。

00

pytorch学习笔记（十九）：torchtext

Torchtext 是一个非常强有力的库，她可以帮助我们解决文本的预处理问题。为了能够更好的利用这个工具，我们需要知道她可以做什么，不可以做什么，也要将每个API和其我们想要的做的事情联系起来。另外一个值得夸赞的一点是，Torchtext 不仅可以和 pytorch 一起用，还可以和其它深度学习框架(tf,mxnet,…)。

03

PaddleNLP基于ERNIR3.0文本分类以中医疗搜索检索词意图分类(KUAKE-QIC)为例【多分类(单标签)】

本项目链接： PaddleNLP基于ERNIR3.0文本分类任务详解【多分类(单标签)】

02

PaddleNLP基于ERNIR3.0文本分类以中医疗搜索检索词意图分类(KUAKE-QIC)为例【多分类(单标签)】

相关项目链接： Paddlenlp之UIE模型实战实体抽取任务【打车数据、快递单】 Paddlenlp之UIE分类模型【以情感倾向分析新闻分类为例】含智能标注方案）应用实践：分类模型大集成者[Pad

02

一文看尽2019年NLP前沿突破

它发表于2018年末，自那之后的一年，NLP和NLU(自然语言理解)领域有了较大的发展。

02

回望2017，基于深度学习的NLP研究大盘点

AI 科技评论按：本文是一篇发布于 tryolabs 的文章，作者 Javier Couto 针对 2017 年基于深度学习的自然语言处理研究进行了大盘点。AI 科技评论根据原文进行了编译。在过去的几年里，深度学习（DL）架构和算法在诸如图像识别和语音处理等领域取得了世人瞩目的进步。然而在最开始的时候，深度学习在自然语言处理（Natural Language Processing, NLP）领域的效果一般，但是现在已经被证实深度学习在自然语言处理领域依然能够发挥巨大的作用。并且在一些常见的自然语言处理任务

05

NLP项目：使用NLTK和SpaCy进行命名实体识别

命名实体识别（NER）是信息提取的第一步，旨在在文本中查找和分类命名实体转换为预定义的分类，例如人员名称，组织，地点，时间，数量，货币价值，百分比等。NER用于自然语言处理（NLP）的许多领域，它可以帮助回答许多现实问题，例如：

04

无需GPT-3！国外小哥徒手开发Text2Code，数据分析代码一键生成

如果能创建一个桌面软件，将自然语言直接转换成相关的 Python 数据分析代码，工作就方便了。

04

初学者|一起学学SpaCy

代码已上传：https://github.com/yuquanle/StudyForNLP/blob/master/NLPtools/SpacyDemo.ipynb

03

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭