自定义NER模型保存到磁盘后会产生不良结果吗？

、

我使用Prodi.gy创建了一个自定义的NER模型。一旦我执行了所有的处理和验证，我就将模型保存到磁盘上。我可以使用spacy.load从磁盘实例化模型，它似乎工作得很好。我现在的问题是如何将自定义NER模型添加到spacy管道中？我想要确保我的管道中有标记器、解析器等，外加我的自定义NER模型。似乎我应该从一个现有的模型(en_core_web_sm)中初始化一个基本的nlp，删除现有的NER，并用我的自定义NER替换它。这无疑是用户的错误，我只是从文档和试验/错误中找不出我做错了什么(或需要做什么)。也许我的操作是错的？也许我应该尝试将标记器和解析器添加到我的自定义模型实例化中？ I

浏览 53提问于2021-01-16得票数 1

回答已采纳

1回答

spaCy 2.0:保存并加载自定义NER模型

、、

我已经使用自定义标记器在spaCy中训练了一个自定义NER模型。我想不使用记号赋予器来保存NER模型。我使用在spaCy支持论坛中找到的代码尝试了以下代码： import spacy nlp = spacy.load("en") nlp.tokenizer = some_custom_tokenizer # Train the NER model... nlp.tokenizer = None nlp.to_disk('/tmp/my_model', disable=['tokenizer']) 当我尝试加载它时，管道是空的，令人惊讶的是，它有

浏览 6提问于2018-01-30得票数 9

1回答

Python: Spacy NER和内存消耗

、、、

我使用空格进行命名实体识别。我在en_core_web_md上有我自己训练过的模型。我的模型大小是223兆字节。当模型加载到内存中时，它使用800兆字节。对于NER来说，有没有可能不加载所有的东西(lexemes.bin，string.json，key2row)，而只加载向量和模型(分别重4MB和24MB)，从而消耗更少的内存？还是都需要为NER加载？

浏览 49提问于2020-05-01得票数 1

回答已采纳

1回答

自定义NER模型中实体的最大限制是什么？

、、、、

我们可以在基于spacy或bert的自定义NER模型中拥有的实体的最大极限是什么？我见过网络上的例子，它们被训练成每个模型最多有10个自定义实体，甚至Ontonotes数据集也有18个实体，那么在一个NER模型中拥有一定数量的实体会影响模型的学习能力和性能吗？

浏览 6提问于2022-05-08得票数 1

1回答

运行自定义训练的斯坦福纳模型作为服务器

、

我用斯坦福大学训练了我自己的模型。我可以使用下面的代码从python代码中与它进行接口，并正确地注释输入文本中的命名实体。 st = NERTagger('stanford_classifiers/ner-model-custom.ser.gz', 'stanford_classifiers/stanford-ner.jar', 'utf-8') entities = st.tag(input_text.split()) 但是，由于每个文本输入的速度太慢，所以我将模型作为服务器运行，并通过使用下面的代

浏览 2提问于2014-11-13得票数 0

回答已采纳

1回答

载入自定义NER模型斯坦福CoreNLP

、、、、

我用斯坦福的“Stanford”软件创建了自己的NER模型，并遵循了的指导。我知道CoreNLP按以下顺序从盒子中加载三个NER模型： edu/stanford/nlp/models/ner/english.all.3class.distsim.crf.ser.gz edu/stanford/nlp/models/ner/english.muc.7class.distsim.crf.ser.gz edu/stanford/nlp/models/ner/english.conll.4class.distsim.crf.ser.gz 现在，我希望将我的NER模型包括在上面的列

浏览 0提问于2017-05-12得票数 6

回答已采纳

2回答

Mirth升级到版本3后删除old_messages表安全吗？

、

当我从<3升级到3.0.3.7171时，Mirth将我所有的旧消息保存到一个名为MySQL的OLD_MESSAGE表中。这个表很大，并且占用了我大部分的磁盘空间。我不再需要从升级到版本3之前的任何消息。我能安全地从MySQL中删除这个表并没有任何不良影响吗？提前感谢您的帮助！ mysql> describe OLD_MESSAGE; +---------------------------+--------------+------+-----+-------------------+-----------------------------+ | Field

浏览 5提问于2015-02-17得票数 1

回答已采纳

1回答

我已经创建了一些训练数据(大约300个样本)来为食谱成分做NER，并遵循了https://spacy.io/usage/training#example-train-ner的代码示例。新创建的模型在预测我的测试数据集上的术语时做得很好，但是在将模型保存到磁盘并再次加载之后，它一点也不好。我一定是在将模型保存到磁盘时遗漏了一些东西，这会损失很大的准确性。在运行nlp.to_disk之前，有什么我应该做的事情吗?或者我需要设置一些选项？例如，保存前的新模型生成以下输出： 2 pounds tomatillos (about 15 medium), husks removed Entities

浏览 19提问于2019-03-22得票数 1

1回答

如何使用斯坦福大学( Stanford )从TreeAnnotation中提取未标记/非类型化依赖树？

、

目标语言是西班牙语。英语管道支持类型化依赖，而西班牙管道，据我所知，不支持。目标是从TreeAnnotation生成依赖树，其中最终结果是有向边的列表。如果是的话，用CoreNLP 3.4.1和使用西班牙语模型可以做到这一点吗？背景我使用斯坦福CoreNLP 3.4.1 + (3.5.0西班牙语的POS标记模型)(由于兼容性原因，尚不能使用Java 8)，配置如下： Properties props = new Properties(); props.setProperty("annotators", "tokenize, ssplit, pos, ner, p

浏览 3提问于2015-06-15得票数 1

回答已采纳

1回答

在训练新实体的Spacy模型之后，经过训练的NER模型在哪里保存？

、、、、

我仍然在学习Python和模型的创建，并且对使用Spacy的NLP非常陌生。我用训练了Spacy现有的模型-- en_core_web_sm。我已经用我的领域特定实体来训练这个模型。 def main(model="en_core_web_sm", new_model_name="new_ner_model", output_dir='/content/drive/My Drive/Data/new_model', n_iter=100): . . (code to train the model) . . # save model t

浏览 1提问于2020-11-13得票数 1

回答已采纳

2回答

CoreNLP:在Windows上加载“开箱即用”和自定义NER模型

、

我希望加载一个自定义的构建NER模型，以及一个“开箱即用”的斯坦福CoreNLP NER模型在一台Windows 10计算机上。我想将这两种模式应用到我的文本中。我已经为一个CentOS系统完成了这个任务，并编写了这个问题。我知道我可以使用-serverproperties与属性文件一起加载自定义的NER模型。当您这样做时，这是唯一要加载的模型，并且您必须指定除了您的自定义模型之外，还要加载哪个“开箱即用”的NER模型。我已经在我的CentOS系统上这样做了，但不能在我的Windows计算机上完成它。困难在于将filepath指定为“开箱即用”的NER模型。我使用这种类型的路径作为我的自

浏览 4提问于2017-08-29得票数 0

1回答

CRF模型可以作为NER注释器加载吗？

、

我做了我自己的CRF模型。现在我想对这个模型进行测试，我需要加载这个模型。是在文档中提供的。但我的问题是，我能否与斯坦福大学的NER注解器一起使用这个模型呢？我能做些什么吗。 Properties props; props.setProperty("annotators", "tokenize, ssplit, pos, lemma, parse,ner"); props.put("ner.model", "myCrf-model.ser.gz"); 我需要知道的优缺点--使用这些代码行而不是中给出的代码行。结果

浏览 5提问于2016-05-17得票数 0

2回答

用StanfordNLP进行托卡器训练

、

所以我的要求在口头上很简单。我需要基于自定义实体的StanfordCoreNLP默认模型以及经过自定义培训的模型。在最后的运行中，我需要能够从给定的句子中分离出特定的短语(将使用RegexNER)。以下是我的努力： with :-因此我想使用StanfordCoreNLP CRF文件、标记文件和ner模型文件，以及我的自定义培训的StanfordCoreNLP模型。我试着找出是否有任何正式的方法来做这件事，但是什么也没有得到。有一个属性"ner.model“用于StanfordCoreNLP管道，但如果使用，它将跳过默认的管道。 ever :- Next (可能不是有史以来最聪明

浏览 4提问于2017-04-30得票数 1

回答已采纳

1回答

如何使用stanford ner中的标志-loadJarClassifier创建自己的jar文件？

如何创建自己的jar文件，其中包含自己的NER模型作为斯坦福NER的默认模型？

浏览 0提问于2017-11-04得票数 1

2回答

仅来自PhraseMatcher的空间实体

、

我正在为一个NLP项目使用。我有一个短语列表，我想标记为一个新的实体类型。我最初尝试过训练一个NER模型，但是由于有一个有限的术语列表，我认为简单地使用Matcher应该更容易。我在中看到，您可以根据Matcher将实体添加到文档中。我的问题是:如何对新的实体执行此操作，而不让NER管道标记任何其他标记作为该实体？理想情况下，只有通过matcher找到的令牌才应该标记为实体，但我需要将其作为标签添加到NER模型中，然后将一些标记为实体。对于如何最好地完成这一任务，有什么建议吗？谢谢!

浏览 2提问于2018-03-04得票数 4

回答已采纳

1回答

用Spacy NER模型的反例来改进训练

、

我已经为spacy的ner模型提供了一组GoldParse对象进行训练。我现在想做的是评估它在新句子上的结果，并将每个识别的实体标记为“好”或“坏”，然后将这些信息纳入新的一批训练中。这个是可能的吗？ner模型如何从负样本中学习？

浏览 6提问于2018-03-06得票数 3

回答已采纳

1回答

使用IOB标签方案为影评数据集自定义Spacy NER

、、

我之前已经使用CRF++模型来识别电影评论数据集中的NER。然而，我发现spacy在使用和可视化方面非常有效。然而，这里的问题是，我如何在spacy中合并CRF++模型？如果这是不可能的，我如何使用IOB标签训练Spacy NER模型来满足我的需求？

浏览 1提问于2018-05-27得票数 0

1回答

使用自定义数据训练Spacy的预定义NER模型，需要考虑复合因子、批次大小和损失值

、、、

我正在尝试训练spacy NER模型，我有大约2600个段落的数据，每个段落的长度从200到800个单词不等。我必须添加两个新的实体标签，产品和规范。如果没有最好的替代方法，这种方法是不是很好呢？如果可以，那么有没有人能给我建议合适的复合因子和批量大小的值，并且在训练时，损失值应该在范围内，有什么想法吗？到目前为止，我得到的损失值在400-5之间。 def main(model=None, new_model_name='product_details_parser', output_dir=Path('/xyz_path/'), n_iter=20): &

浏览 9提问于2019-01-05得票数 2

1回答

Apache :在tika-server上为opennlp模型设置类路径

我似乎无法为tika-服务器设置类路径，以便正确检测opennlp模型。我按照这里的指示： (用app代替-server，看起来它包含了所需的一切) 我已经创建了以下文件夹结构 tika `-- tika-ner-resources `-- org `-- apache `-- tika `-- parser `-- ner `-- opennlp |-- ner-location.bin

浏览 1提问于2018-08-20得票数 1

回答已采纳

3回答

在RegexNER输出中有StanfordCoreNLPServer和NER标记吗？

、

我正在使用StanfordCoreNLPServer从文本中提取一些信息(例如表面、街道名称)。街道是由一个经过专门训练的NER模型给出的，而表面则是由一个简单的正则表达式通过RegexNER给出的。它们分别工作很好，但是当一起使用时，只有NER结果出现在输出中，在ner标记下。为什么没有regexner标签？有办法也有RegexNER的结果吗？供参考： StanfordCoreNLP v3.6.0 所使用的URL： '‘’？properties={“注释者”：“记号化，ssplit，pos，ner，regexner"，‘’tokenize.language‘：”

浏览 3提问于2016-06-17得票数 6

回答已采纳

1回答

在运行其命名实体识别(NER)模型时，Apache OpenNLP默认使用哪些功能？

、、

我知道Apache OpenNLP使用MaxEnt模型作为它的NER标记器。但是Apache OpenNLP在运行其命名实体识别(NER)模型时(默认情况下)使用哪些功能呢？另外，我们如何在OpenNLP (Java实现)中加入/定制新特性？

浏览 4提问于2018-10-17得票数 2

1回答

每次迭代后保存spacy`s模型

、、、

我尝试在每次迭代后保存到Spacy自定义NER模型。我们是否有类似于tensorflow中的API来在每/确定否之后保存模型权重。迭代次数。然后我可以重新加载保存的模型，并从那里继续训练。另外，我如何在linux中利用我系统上的所有内核。我发现四个内核中只有两个在使用。他们使用多任务CNN进行NER，我知道在CPU上重新训练需要更多的时间。还有其他加速NER模型训练的方法。 @plac.annotations( model=("Model name. Defaults to blank 'en' model.", "option", &

浏览 14提问于2018-01-19得票数 1

1回答

如何用SpaCy从磁盘加载自定义的NER模型？

、

我已经用以下步骤定制了NER管道 doc = nlp("I am going to Vallila. I am going to Sörnäinen.") for ent in doc.ents: print(ent.text, ent.label_) LABEL = 'DISTRICT' TRAIN_DATA = [ ( 'We need to deliver it to Vallila', { 'entities': [(25, 32, 'DISTRICT')]

浏览 14提问于2022-05-03得票数 0

回答已采纳

1回答

前句对命名实体识别的影响

、、

在命名实体识别(NER)中，前一句对当前句子有什么影响吗？如果你在每个句子中单独应用NER，那么结果是否与在由多个句子组成的文章中使用NER相同？更确切地说，我用的是Spacy NER。这是第一种方法： import spacy nlp = spacy.load('en') sentences = "My name is Bruce and I come from New York. Pete is my best friend from Amsterdam." nlp_object = nlp(sentences) print([(y.text, y.l

浏览 0提问于2018-11-13得票数 3

回答已采纳

2回答

Spacy从训练模型中提取命名实体关系

、、、、

如何使用Spacy创建一个新的名称实体“病例”-在传染病病例数量的上下文中，然后提取这与病例基数之间的依赖关系。例如，在以下文本中，“1995年10月9日至11月5日期间报告了879例病例，其中4例死亡。”我们想要提取"879“和”case“ 在Spacy的示例文档页面上，按照"Training a additional entity type“的代码：我使用他们现有的预训练的"en_core_web_sm“英语模型，成功地训练了一个名为"CASES”的附加实体： from __future__ import unicode_literals, print

浏览 6提问于2020-03-10得票数 1

1回答

在Azure ML中自定义命名实体识别模型

、、

我们可以在Azure ML Studio中使用单独的训练数据集自定义命名实体识别(NER)模型吗？我想要做的是从文本中找出非英语的名字。(训练数据集包括将用于训练的名称集)

浏览 6提问于2016-08-22得票数 3

1回答

差分空间的“-基-模型”和“-向量”参数用于为NER使用自定义嵌入？

、、

我训练了快速文本嵌入，并将它们保存为.vec文件。我想用这些来做我的斯宾塞模型。有什么区别吗 python -m spacy train en [new_model] [train_data] [dev_data] --pipeline ner --base-model embeddings.vec 和 python -m spacy train en [new_model] [train_data] [dev_data] --pipeline ner --vectors embeddings.vec？两种方法产生的训练损失、F评分等几乎相同。

浏览 0提问于2020-11-25得票数 0

回答已采纳

1回答

斯坦福NER自定义模型精度测试

、

我正在使用自定义模型进行实体提取。我将基于CRF的模型训练为 java -Xmx16g斯坦福-ner.jar edu.stanford.nlp.ie.crf.CRFClassifier -prop ner.prop 使用这些特性属性文件(ner.prop) trainFile = training_data_IOB.tsv #serializeTo = ner-model.ser.gz map = word=0,answer=1 useClassFeature=true useWord=true qnSize=10 entitySubclassification=IO

浏览 0提问于2019-01-13得票数 1

1回答

将自定义训练的NER模型与斯坦福CoreNLP中现有的默认模型集成

、、

我已经通过以下链接训练了语料库。 https://www.sicara.ai/blog/2018-04-25-python-train-model-NTLK-stanford-ner-tagger 数据集是一些我训练过的健康博客(英文版)。我能够成功地在我的新看不见的文本上运行这个模型。问题:我面临的问题是，我想在斯坦福CoreNLP中运行我的自定义英语NER模型和默认的英语模型。期望的结果:我希望Stanford默认模型在我自己的自定义模型NER模型之后以顺序方式运行，以处理我自己的模型遗漏的那些英语实体。

浏览 22提问于2019-09-24得票数 1

回答已采纳

1回答

带有自定义标签的SparkNLP的NerCrfApproach

、

我正在尝试使用CoNLL格式的数据集训练SparkNLP NerCrfApproach模型，该数据集具有产品实体(如I-Prod、B-Prod等)的自定义标签。然而，当使用训练好的模型进行预测时，我只得到了"O“作为所有标记的分配标签。当使用在SparkNLP研讨会示例中的CoNLL数据上训练的相同模型时，分类效果很好。(请参阅https://github.com/JohnSnowLabs/spark-nlp-workshop/tree/master/jupyter/training/english/crf-ner) 因此，问题是：NerCrfApproach是否依赖于CoNLL数据

浏览 23提问于2021-10-13得票数 0

回答已采纳

1回答

用NLTK或Stanford使用自定义语料库进行命名实体识别

、、

我正在尝试用自定义的NE (命名实体)字典来训练印第安的NER模型。我指的是NLTK和Stanford。 NLTK 我发现nltk.chunk.named_entity.NEChunkParser 能够在定制语料库上进行培训。但是，培训语料库的格式没有在源代码的文件或评论中具体说明。我在哪里可以找到NLTK的自定义语料库指南？斯坦福纳根据的说法，斯坦福大学的FAQ给出了如何训练自定义NER模型的方向。最主要的担忧之一是，默认的斯坦福纳不支持印度人。那么把印度人的语料库喂给模型是可行的吗？

浏览 5提问于2016-01-13得票数 0

1回答

SPACY -关于单词向量和tok2vec的混淆

、、、

如果你能帮我理解一些关于Spacy的基本概念，我会很有帮助的。我知道一些spacy模型有一些预定义的静态向量，例如，对于西班牙模型，这些是由FastText生成的向量。我还了解到有一个tok2vec层，它从令牌生成向量，例如用作模型的NER组件的输入。如果以上所述是正确的，那么我有一些问题： NER组件也使用静态向量吗?如果是，那么component?层在哪里发挥作用?如果不是，那么使用lg或md模型是否有任何优势，如果您只打算将模型用于例如NER component？。是已经为预先培训过的下载模型(例如西班牙语)而训练的tok2vec层吗?如果我替换预训练模型的NER组件，它是否保持t

浏览 1提问于2020-10-07得票数 6

回答已采纳

1回答

MITIE ner模型

、、、

我一直在探索使用预先训练的MITIE模型进行命名实体提取。不管怎么说，我可以看看他们实际的ner模型，而不是使用预先训练的模型吗？该模型作为开放源码可用吗？

浏览 0提问于2017-10-11得票数 1

回答已采纳

2回答

是否有可能导出和使用spaCy NER模型而不使用vocab，并动态地注入令牌/向量？

、

INTRO 我的问题来源于离冠军有点远，但从本质上来说，我很好地总结了我目前所坚持的。我需要将空间的NER模型集成为一个复杂的分布式NLP管道的一部分，我要做的是：在en_core_web_lg模型的基础上训练一个新的NER模型，以识别我在NER任务中的自定义实体保存模型，跳过词汇表以节省磁盘空间和内存使用最后，加载模型以运行某些推断，使用在我的管道中预先计算过的标记和向量，而不是使用模型词汇表(标准方法)再次计算。我之所以保存模型而不使用词汇表，是因为在我的分布式管道中，首先做的事情之一是对文本进行标记/矢量化，这样剩下的任务就有了这个输入。在

浏览 4提问于2021-11-23得票数 2

回答已采纳

1回答

斯坦福CoreNLP:如何将一个标准的、但经过俄罗斯训练的NER模型与完全自定义的lemmatisation模型集成在一起？

、、

作为我大学项目的一部分，我目前正在研究一种适用于俄语的共指标记算法，基于斯坦福大学的CoreNLP。在很大程度上，这很容易:已经有了俄罗斯的lemmatisation和PoS标记模型。然而，没有用于该语言的NER模型，至少基于CoreNLP，因此，我必须使用CoreNLP的统计方法自己训练这样的模型。问题在于如何使这个新的经过训练的NER模型适应lemmatisation和PoS- to模型。虽然我的模型是纯统计的，仍然基于原始的CoreNLP代码，但另外两个完全不同。因此，我实际上不能让我的NER集成它们。你怎么能做到这一点呢？相关代码为： props.setProperty("

浏览 21提问于2019-03-17得票数 0

1回答

如何使用斯坦福-nlp提供的OpenIEDemo.java生成自定义三元组

、、、

我已经训练了自定义NER和关系提取模型，并且我已经用corenlp服务器检查了生成三元组，但是当我使用OpenIEDemo.java生成三元组时，它生成的三元组只具有关系"has“和" have”，而不是我训练关系提取模型所在的关系。我正在加载自定义NER和关系提取模型，同时运行相同的脚本。这是我的OpenIEDemo.java文件... package edu.stanford.nlp.naturalli; import edu.stanford.nlp.ie.util.RelationTriple; import edu.stanford.nlp.io.IOUtils

浏览 38提问于2019-05-21得票数 1

回答已采纳

2回答

为MariaDB过程创建自定义类型

、、

在PL/SQL世界中，我将使用type field_name is table of number index by VARCHAR2;创建一个自定义类型，并使用新类型，如下面的v_source_count source_code_ar; for MariaDB states types可以是任何MariaDB类型。不过，它并没有提到任何定制类型。是否有一种方法可以实现上面PL/SQL与MariaDB相同的结果？

浏览 3提问于2017-05-24得票数 2

回答已采纳

1回答

将自定义NER添加到Spacy 3管道

、、

我正在尝试构建一个基于en_core_web_sm管道的自定义Spacy管道。据我所知，在打印时，在管道名称中显示的ner已被正确添加(请参见下面)。由于某些原因，当模型在文本上测试时，我没有得到任何结果，但是当自定义ner被自己使用时，正确的实体就被提取出来并贴上标签。我使用的是Spacy 3.0.8和en_core_web_sm管道3.0.0。 import spacy crypto_nlp = spacy.load('model-best') nlp = spacy.load('en_core_web_sm') nlp.add_pipe('n

浏览 6提问于2022-05-06得票数 0

回答已采纳

2回答

使用Spacy训练NER从简历中提取技能。什么是转换中的U-实体名称

、、、

我正在使用training spacy NER从resume.But error中提取技能信息在NER模型中找不到名为“U-SKILL”的过渡训练数据： [(U“我有2年的Python经验”，{"entities"：(30，35，"SKILL")})] 代码： other_pipes = [pipe for pipe in nlp.pipe_names if pipe != "ner"] with nlp.disable_pipes(*other_pipes): optimizer = nlp.begin_training()

浏览 46提问于2019-04-17得票数 4

1回答

如何使用Thinc模型创建自定义spaPcy管道组件

、、

我想在spaCy中创建一个自定义管道组件，它使用的是经过预处理的Thinc模型。我希望修改Thinc的输出预测，然后将修改后的值传回管道，即有效地修改ner管道组件。我正在考虑通过自定义管道组件来实现这一点，比如： from spacy.language import Language @Language.component("my_ner") def my_ner(doc): class_probabilities = thinc_do_something(data, model, num_samples) class_value = np.a

浏览 2提问于2022-06-22得票数 1

回答已采纳

1回答

有没有什么办法可以将经过eBrevia训练的模型加载到CoreNLP或Spacy中？

、、、、

我有一个来自eBrevia的经过训练的名称实体识别(NER)模型。我想知道是否有一种方法可以使用Python或Java编程将其加载到CoreNLP或Spacy中。编辑:如果预训练的模型是一个pickle模型，有没有办法使用Corenlp或Spacy来加载它？提前感谢！

浏览 12提问于2019-10-03得票数 0

1回答

自定义Spacy NER模型的总体F得分与单个实体的F得分之间的巨大差异

、、、

我正在使用Spacy训练一个自定义NER模型，该模型使用6个实体的5000个文本条目的样本。当在一个看不见的样本(500个文本条目)上评估训练后的模型时，我为整个模型(93.8)获得的F分数在任何单个实体的F分数之间有很大差异。有人能帮我理解整体F分数是如何计算的吗?为什么整体F分数和单个实体分数之间有这么大的差异？我使用Spacy构建了自己的自定义命名实体识别(NER)模型。我的训练数据集的大小是5000，其中有6个实体。此外，我在500个样本上测试了我的模型，并使用Scorer和GoldParse对模型进行了评估。下面是我用来评估测试数据性能的代码： def evaluate(ner_

浏览 14提问于2019-07-31得票数 1

回答已采纳

1回答

如何处理NLP中的两种实体提取方法

、、

因此，我使用组件ner_spacy和ner_crf来创建模型。之后，我用python构建了一个小的辅助脚本来评估模型的性能。在那里，我注意到模型很难选择正确的敌意。例如，对于单词'X‘，它从SpaCy中选择了预定义的enity 'ORG’，但它应该被识别为我在训练数据中定义的自定义enity。如果我只是使用ner_crf提取器，我在识别像大写字母这样的位置时会遇到很大的问题。另外，我最大的问题之一是单一答案的偏见。问：“你最喜欢的动物是什么？” 答:狗我的模型不能为这个单一的答案提取这个单一的实体“动物”。如果我用两个单词来回答这个问题，比如'The Dog&#

浏览 2提问于2019-03-05得票数 1

1回答

管道中的Spacy包含规则匹配器

、

我的语料库中有一些短语需要spacy来忽略(希望避免过度匹配)。它们是相当简单的正则表达式公式，我也可以用Spacy's基于规则的匹配的格式来编写。在进入NER和TextCat管道之前，我希望在我的模型中将匹配标记为停用词。我看到了如何编写匹配器，但我不确定如何将其合并到我的模型中？我只是将其添加为管道吗？谢谢!

浏览 15提问于2018-02-23得票数 3

1回答

如何在NER模型上设置空格标记器？

、、

我正在使用CoreNLP 3.6.0创建一个自定义的NER模型我的道具是： # location of the training file trainFile = /home/damiano/stanford-ner.tsv # location where you would like to save (serialize) your # classifier; adding .gz at the end automatically gzips the file, # making it smaller, and faster to load serializeTo = ner-

浏览 2提问于2016-08-12得票数 2

回答已采纳

1回答

他们从哪里得到RSA保理挑战的数字？

有RSA保理挑战的编号。例如，RSA-896解决方案的成本为75,000美元，其数字为： 41202343698665954385553136533257594817981169984432798284545562643387644556 52484261980988704231618418792614202471888694925609317763750334211309823974 85150944909106910269861031862704114880866970564902903653658867433731720813 104105190864254793282601391257

浏览 0提问于2017-07-21得票数 4

回答已采纳

1回答

具有不同类别的stanford-nlp ner模型(Person，Organization，...)

我目前正在寻求构建一个斯坦福NER模型，该模型将能够识别不同于这些内置的类别(人员，组织，位置，...)在斯坦福的模型中。例如，我想构建一个NER模型，该模型将被训练为标记实体酒店、国家、所有者。这个是可能的吗？提前感谢！

浏览 3提问于2015-12-03得票数 1

2回答

apache beam将spacy模型作为数据流中的侧输入进行广播

、、、

我正在使用python sdk并尝试广播一个spacy模型(~50MB)。作业将在数据流上运行。我是beam的新手，根据我的理解:我们不能在map函数中加载大对象，并且我们不能在提交作业之前加载它们，因为作业大小是有上限的。下面是在worker上“惰性加载”大对象的解决方法。 ner_model = ( pipeline | "ner_model" >> beam.Create([None]) | beam.Map(lambda x: spacy.load("en_cor

浏览 0提问于2020-09-01得票数 0

3回答

识别印第安名字的NER模型

、、、、

我计划使用命名实体识别(NER)技术从给定的文本中识别人的名字(其中大多数是印度人的名字)。我已经从斯坦福NLP探索了基于CRF的NER模型，但是它在识别印第安名字方面并不十分准确。因此，我决定通过监督培训创建自己的自定义NER模型。我对如何使用斯坦福大学通用报告格式创建自己的NER模型有一个很好的想法，但创建一个带有人工注释的大型培训语料库是我想要避免的，因为这对于个人来说是一项巨大的努力，其次，从不同的印度邦获得不同的人的名字也是一项挑战。有谁能提出任何自动化/程序化的方法来编写一个标有至少100000个印第安名字的培训语料库？我已经研究过Facebook和LinkedIn API，但没

浏览 0提问于2015-08-18得票数 5

回答已采纳

1回答

在Spacy培训两个连续的NER管道

、、、

我正在进行一个训练分类器以识别文本中引文的项目。我们所处理的引文往往是非常混乱的。以下是一些引用的例子：见A册第3章第7段见A书第3章第7段见A书第7段的“某些章节标题”一章我们已经确定了少数实体往往出现在这些引文中。例如，“书名”、“章号”、“章名”、“段号”。该项目分为两个阶段：文本引文的二元分类引文中引文实体的分类 Spacy (我们正在使用v3)是否有可能有两个连续的NER管道？我希望分类器首先标记引文，然后标记每个引文中的实体。我能够用下面的代码用两个NER管道实例化一个模型： from spacy.lang.en import E

浏览 3提问于2021-04-25得票数 1

回答已采纳