免费标记语料库用于命名实体识别

免费标记语料库用于命名实体识别是指一种可以用于训练命名实体识别（NER）模型的数据集，其中包含了大量的文本数据，每个文本数据中的实体都已经被标记和标注。命名实体识别是自然语言处理（NLP）领域中的一项重要任务，它的目的是识别文本中的实体，如人名、地名、组织机构名等。这些实体可以用于信息检索、知识图谱构建、文本分类等任务中。

免费标记语料库用于命名实体识别的一些常见的数据集包括：

CoNLL-2003数据集：这是一个英语语料库，包含了11,260个句子，其中有14,041个实体。
OntoNotes数据集：这是一个英语语料库，包含了50,000个句子，其中有100,000个实体。
AIDA-YAGO2数据集：这是一个英语语料库，包含了100,000个句子，其中有200,000个实体。
FACE数据集：这是一个中文语料库，包含了10,000个句子，其中有20,000个实体。
MSRA数据集：这是一个中文语料库，包含了4,000个句子，其中有8,000个实体。

这些数据集都可以从官方网站上免费下载，并且可以用于训练命名实体识别模型。训练好的模型可以用于自然语言处理任务中，例如文本分类、情感分析、机器翻译等。

腾讯云提供了一些自然语言处理相关的产品，可以用于训练命名实体识别模型，例如腾讯云自然语言处理（NLP）、腾讯云机器翻译、腾讯云文本分析等。这些产品可以帮助用户快速构建自然语言处理模型，并且可以用于文本分类、情感分析、机器翻译等任务中。

用NLTK或conll2000语料库训练NER语料库

、、

我一直试图为特定领域和新实体的命名实体识别提供一个模型。似乎没有一个完整的合适的管道，并有必要使用不同的包。我想给NLTK一个机会。我的问题是，如何训练NLTK人员使用ieer语料库对新的实体进行分类和匹配？我当然会以IOB格式提供训练资料，例如： We PRP B-NP saw VBD O the DT B-NP yellow JJ I-NP dog NN I-NP 我想我得自己给这些代币贴上标签。如果我有这种格式的文本文件，接下来我该做什么?用ieer语料库或者更好的conll2000来训练我的数据的步骤是什么？我知道有一些文件在外面，但我不清楚，在你有一个培训语料库标记后，我做什

浏览 1提问于2017-04-19得票数 1

回答已采纳

2回答

命名实体识别数据和功能

、

我正在构建一个具有条件随机字段的命名实体识别器，并寻找两个东西： A)用于人员、位置和组织实体的开源英语NER数据集 B)英语NER功能列表我已经查看了CoNLL-2003语料库，发现这正是我想要的，但它并不是现成的。我一直没有成功地找到一个NER特性列表；我正在努力避免不得不手动设计这些特性。谢谢

浏览 1提问于2013-02-24得票数 5

7回答

NLP中语料库的人工标注工具

、

我正在尝试构建我自己的命名实体识别训练语料库，但我不知道是否已经有了这样的工具，或者我是否必须自己实现一个工具。基本上，我需要做的是取一个语料库，然后逐字逐句地标记它，这是相当乏味的，但它必须完成。有人能告诉我是否已经有了吗?从哪里弄到？

浏览 7提问于2014-08-25得票数 3

回答已采纳

3回答

用于命名实体识别的免费标注语料库

、、、

我正在寻找一个免费的标记语料库的系统上训练命名实体识别。我找到的大多数网站(比如“纽约时报”)都很贵，而且没有开张。有人能帮上忙吗？

浏览 4提问于2010-07-26得票数 9

1回答

用类扩展文本语料库

、、

我有一个由许多句子组成的文本语料库，其中有一些命名实体。例如，句子：得克萨斯州威奇托最好的餐厅是什么？标记为： <location>最好的餐厅是什么？我想扩大这一语料库，取下或抽样其中的所有句子，并将命名实体替换为来自同一类型的其他类似实体，例如将"wichita texas“替换为"new york"，这样，语料库就会更大(更多句子)和更完整(实体数量)。我有类似的实体列表，包括那些没有出现在语料库中的实体，但我希望在我的替换中插入它们的一些可能性。你能给我推荐一种方法或者给我介绍一篇关于这方面的论文吗？

浏览 4提问于2014-04-08得票数 0

回答已采纳

1回答

在文档项目上构建语料库有意义吗？

、、

我没有在数据科学或机器学习方面的经验。因此，我无法确定建立语料库是否适用于我试图解决的问题。我正试图为云技术(如AWS、Google )构建一个参考站点。我能够构建结构化数据，并在一个单一的生态系统中使用标准的web抓取和sql.queries识别主要实体。但我希望有能力拥有一种机制，能够自主地识别与该实体和与之有关系的其他实体相关的实体和相关信息。考虑到特定的生态系统文档遵循一定的风格，我可以使用很少的实体作为培训文档，然后让它对我前面提到的信息进行分类。这样做的出发点是建立一个语料库吗？我试过了分类语料库生成器。在多个类别中包含一个特定的文档可以吗？例如，AWS中的实例可以是类

浏览 0提问于2020-02-12得票数 0

回答已采纳

1回答

如何计算NER系统的精度？

、、、

我正在使用几个NER工具来提取一个语料库中的命名实体，我想使用NLTK模块测试它们的准确性。我使用过的一些工具是： NTLK 斯坦福大学NER： MeaningCloud：为了获得系统的准确性，NLTK的accuracy函数采用两个参数:正确注释的数据集(包含语料库中的所有标记及其分类(人员、位置、组织或表示令牌不是命名实体的'O‘)和NER系统的输出。当NER返回所有标记及其分类的列表时，这是可以的。但是，有些工具，例如MeaningCloud，只返回在语料库中识别的命名实体的分类。这使得无法获得准确性(为了获得它，应该返回单词的完整列表，以便两个注释之间的

浏览 4提问于2017-07-28得票数 0

3回答

opennlp vs stanford nlptools vs berkeley

、、、

其目标是解析像维基百科这样的大型语料库，以生成最可能的解析树，并进行命名实体识别。就性能和准确性而言，哪个库是实现这一目标的最佳库？有没有人使用过以上的库？

浏览 1提问于2010-10-01得票数 4

回答已采纳

3回答

是否有用于命名实体识别的c#库？

、、

我正在寻找在c#或任何其他.net语言中用于命名实体识别的自由库。

浏览 2提问于2010-04-07得票数 6

回答已采纳

1回答

斯坦福NLP分类器中的"Other“类，用于与任何训练类无关的线

我使用斯坦福NLP很好。我用我所有的班级做了一个培训文件。它可以很好地识别测试线。但是，如果我有另一行代码(这不是我训练过的任何类)，该怎么办？当任何类都不能识别该行时，我可以要求算法返回null等吗？如果不是，您建议我创建一个包含"Other“行的"other”类。但这可能是无限的。谢谢，Aryeh。

浏览 1提问于2015-06-09得票数 0

1回答

谷歌AutoML ".txt to .jsonl“脚本要求的数据格式是什么？

、、

我正在尝试为谷歌AutoML中的实体识别任务创建数据集，使用他们的脚本将我的.txt文件转换为.jsonl，并将其保存在谷歌云存储中，如this tutorial中所述。数据看起来像(来自他们的例子- NCBI疾病语料库)： "10021369 Identification of APC2, a homologue of the <category="Modifier">adenomatous polyposis coli tumour<\/category> suppressor . " 在GCS中上传后，标签根本无法识别。相关

浏览 16提问于2020-12-10得票数 0

2回答

什么标记语言通常用于注释信息提取语料库

、

我正在构建一个信息抽取的语料库，用于提取特定类型的信息，并且我正在努力决定对实体进行注释的最佳方法。我发现IEER语料库使用SGML标记元素ENAMEX、NUMEX和TIMEX标记(如这里所描述的：)。由于本文档是在1997年编写的，我猜想使用这种基于SGML的方法已经过时了，因此必须有更好的方法来实现这一点，例如使用OWL、RDF或XML。是否有更新的行业标准来注释信息抽取语料库？

浏览 5提问于2017-05-19得票数 1

回答已采纳

1回答

自然语言生成中大型文本语料库的预处理建议

、、

我有一个大型的文本语料库(即3000万个句子，全部是小写的Penn Treebank格式)，我想用它来训练一个神经网络来生成自然语言。在此，您推荐哪些预处理步骤？句子来源于正式文本(即书籍)。我计划使用命名实体识别，以便在培训和生成过程中替换命名实体，如人员、位置和组织，并将它们添加回最终输出。还有其他建议吗？

浏览 0提问于2023-01-25得票数 1

回答已采纳

2回答

在斯坦福大学( Stanford CoreNlp )，为什么不所有专有名词(NNP)也都命名实体？

、、

我使用斯坦福大学CoreNlp进行命名实体识别(NER)。我注意到，在某些情况下，这并不是100%，这是好的，也不令人惊讶。然而，即使单个词命名实体不被识别(即标签是O)，它也有标记NNP (专有名词)。例如，给定示例句“纽约的RestautantName是最好的出口”，nerTags()产生的[O, O, O, LOCATION, LOCATION, O, O, O, O, O]只能正确地识别“纽约”。这个句子的解析树看起来像 (ROOT (S (NP (NP (DT The) (NNP RestautantName)) (PP (IN in)

浏览 12提问于2020-07-31得票数 0

回答已采纳

1回答

nltk为语料库中的文件添加类型

我有一堆纯文本文件，我想将它们分类为A类或B类。为了进行训练，我正在考虑将类型作为A类或B类添加到每个文件中，并尝试识别一些可以预测文件类型的特征。我可以创建一个纯文本语料库，但有没有办法在创建语料库时添加文件的类型？

浏览 2提问于2013-02-25得票数 0

回答已采纳

4回答

实体抽取web服务

、

是否有任何付费或免费命名实体识别web服务可用。基本上，我是在寻找一些东西--如果我传递一个文本，比如： “约翰在汉堡王吃了炸薯条” 它应该被识别-类似于这样的东西：人物:约翰组织:汉堡王我听说过，但我认为它没有可用的web服务。

浏览 4提问于2010-05-21得票数 8

回答已采纳

1回答

培训自己的模型并添加新的实体

、、

我一直试图用#887所用的方法来训练一个模型，只是为了一个测试用例。我有一个问题，什么是最好的形式培训语料库进口的空间。我有一个文本文件，其中有一个实体列表，需要新的实体来标记。让我解释一下我的情况，我遵循这样的update.training脚本： nlp = spacy.load('en_core_web_md', entity=False, parser=False) ner= EntityRecognizer(nlp.vocab, entity_types=['FINANCE']) for itn in range(5): random.shu

浏览 2提问于2017-04-11得票数 3

回答已采纳

3回答

如何处理这个命名实体分类任务？

、、、

我问的是一个相关的问题，，但这个问题比较笼统。我拿了一个大语料库，用他们的名字实体给一些单词加了注解。在我的例子中，它们是特定领域的，我称之为:实体，行动，事件。我想用这些作为种子提取更多的命名实体。例如，以下是一句：当机器人出现技术故障时，物体被抛出，但后来被另一个机器人抓住了。标记为：当(robot)/Entity有一个(技术故障)/Incident，(object)/Entity是(thrown)/Action，但后来被(另一个机器人)/Entity的(caught)/Action。举这样的例子，我是否可以训练一个分类器来识别新命名的实体？例如，给出一个这样的句子

浏览 4提问于2011-11-21得票数 1

1回答

如何用OpenNLP实现阿尔巴尼亚文的命名实体识别？

、、

我正在试用用于阿尔巴尼亚语言的OpenNLP。为此，我正在使用OPenNLP，并试图用阿尔巴尼亚语言构建用于人员、位置和组织实体识别的模型。我正在构建自己的语料库，但我需要一位开放式自然语言处理专家来确认以下疑虑: 1-我是否应该为每个模型建立一个单独的语料库，例如，对于只有标签的人建立一个语料库? 2-是否可以在同一语料库中标记人、位置和组织，并使用它来训练能够提取所有三种实体类型的单个模型? 3-是否有资源可以找到有关OpenNLP名称查找模块中使用的算法的更多信息？谢谢你的回复，我真的需要你对我的论文的支持

浏览 0提问于2012-08-15得票数 4

1回答

使用Youtube作为语音识别数据集

、

DNNs是一种巨大的数据需求算法，尤其是双向LSTM算法.对于语音识别模型，对于特定的语言/口音，缺少语音语料库。然而，YouTube也是一个巨大的库。我需要使用一些脚本/软件，它可以自动下载YouTube视频(可能只有音频)和相关的字幕，然后将其分割成20秒的片段，这样就可以用作训练语音语料库。有没有任何方式可以下载来自Youtube的字幕？给出一个音频和脚本，我如何将一个音频分割成20秒的片段，并在文字记录中做同样的剪辑？

浏览 0提问于2018-12-21得票数 0

1回答

从SMS文本中识别模板

、、

我正在构建一个应用程序，我从短信中识别信息，类似于费用管理应用程序。我有一个解析器，它读取用户的所有SMS，识别感兴趣的SMS，并从其中解析有用的信息。这个部分工作得很好，但是问题是我也想要获得解析器的完整性和准确性。完整性-在100条感兴趣的SMS中，有多少解析器能够识别？识别出与SMS相关的SMS的准确性，因为有多少SMS解析器能够提取正确的信息？我有一个人工程序来识别这些。我从语料库中随机抽取样本，分析结果，并手动标记哪些是正确的，哪些是错误的。我能够识别解析器中的空白，并通过这个过程修复它们。然而，更多的差距，我修补的越多，就很难找出进一步的差距与这个过程。另外，由于样本是随机

浏览 0提问于2020-07-12得票数 1

1回答

如何使用自然语言处理来识别逻辑门应用问题的输入和输出？

、、

目前，我已经确定了给定场景中的实体，并尝试使用邻域分析技术对输入实体和输出实体进行分类。这种方法不太准确，因为提供场景的方式可能会不时改变。举个例子：有一个门，窗口和安全。如果关上门，打开窗户，保险箱就解锁了。要找到这方面的布尔表达式，我们需要考虑安全，门和窗口是entities.Furthermore，保险箱是一个输出实体，另外两个是输入实体。有人能建议我使用python来识别哪些是输入实体，哪些是输出实体的正确逻辑吗？

浏览 0提问于2019-02-05得票数 0

2回答

是否可以在spaCy中的实体链接候选生成中使用NER-Label？

、、、

我想使用spaCy进行实体链接(EL)。我已经在我的领域特定语料库上训练了一个带有自定义标签的spaCy命名实体识别(NER)模型。但是，我的以下示例将使用常规实体标签PERSON和LOCATION。在知识库( KB )中设置别名，知识库返回识别出的实体出现的候选，例如"Paris“的候选可以是维基数据条目Q47899 (巴黎希尔顿)、Q7137357 (巴黎西门)、Q5214166 (丹·巴黎)、Q90 (法国首都巴黎)或Q830149 (巴黎，美国得克萨斯州拉马尔县首府)。我的问题与已识别的实体标签有关。如果NER将"Paris“识别为人称，则从候选人中排除Q90 (法

浏览 6提问于2020-10-09得票数 1

1回答

我可以访问用于训练斯坦福NER中文模型的原始语料库吗

我正在尝试重新训练斯坦福大学名称实体识别器的中文模型。我想知道是否有办法获得用于训练官方模型的原始中文语料库？斯坦福-nlp的网页上说，他们使用了来自CoNLL，MUC-6，MUC-7和ACE的语料库。我检查了一下，CoNLL2003似乎没有中文语料库，我需要为MUC-6，MUC-7和ACE付费。有没有其他方法可以获得这些？谢谢。

浏览 6提问于2016-01-28得票数 0

1回答

在亚马逊网络服务中获取错误理解自定义实体识别: DOCUMENT_CORPUS_SIZE_LESS_THEN_MINIMUM

、

我在自定义实体识别器中创建了一个模型，并得到以下错误:文档语料库大小小于最低要求:5120字节我的训练实体列表csv文件大小为7kb(大于5120字节)，测试数据文件为5kb

浏览 19提问于2021-10-28得票数 0

1回答

理解词嵌入的迁移学习

、、、、

我无法想象预先训练过的单词嵌入的迁移学习在NLP任务(比如命名实体识别)中是如何有用的。我正在学习Andrew NG的序列模型课程，他似乎说，如果目标任务的训练集非常少，那么转移单词嵌入的学习将有助于在应用程序中处理训练集中的未知单词。让我们考虑命名实体识别的任务，我的问题是，为目标任务设置的很小的训练内容是什么？它们是带有实体标记的单词嵌入还是句子？他是否认为，如果训练集只是在预先训练过的模型中有嵌入词的标记句，那么训练集中不存在但更接近训练集的单词也会在应用程序中被有效捕获？考虑一下‘橘子’正在训练中。但是，“苹果”并不是。所以，在“我喜欢橘子汁”和“我喜欢苹果汁”这两个句子中，

浏览 0提问于2020-07-27得票数 1

0回答

基于语法网络的命名实体识别

、、

我正在努力理解和学习SyntaxNet。我正在尝试弄清楚是否有任何方法可以使用SyntaxNet来识别语料库的名称实体。任何示例代码或有用的链接将不胜感激。

浏览 4提问于2016-06-30得票数 6

回答已采纳

1回答

在NLTK中使用自定义文件/代码改进实体命名

、

在最近的一个项目中，我们一直在使用NLTK库，其中我们主要对命名实体部分感兴趣。一般来说，我们使用NEChunkParser类会得到很好的结果。然而，我们试图找到一种方法来向解析器提供我们自己的术语，但没有成功。例如，我们有一个测试文档，其中我的名字(Shay)出现在几个地方。图书馆找到我作为GPE，而我希望它找到我作为人... 有没有办法提供某种自定义文件/代码，以便解析器能够像我希望的那样解释命名实体？谢谢!

浏览 0提问于2010-09-23得票数 2

回答已采纳

1回答

每种形式的词分类是否也被认为是“(命名)实体识别”？

、、

在我写的一篇文章中，我把重点放在单词分类上。涉及单词分类的一个典型任务是(命名)实体识别。实体识别是一项相当广泛的任务，似乎也涵盖了其他子任务。因此，对我来说，交替使用这些术语似乎是公平的。这是否合理的假设？

浏览 0提问于2020-09-28得票数 1

回答已采纳

1回答

命名实体识别中机器学习模型的训练

、、

对于NER问题，我找不到任何关于机器学习模型体系结构的解决方法。我模糊地知道这是一个多类分类问题，但是我们如何格式化我们的输入来输入这样的多类分类器呢？我知道输入必须是带注释的语料库，但是我们如何将这组对(词、实体标签)输入到分类器中呢？或者，你是如何将这样的语料库设计成ML模型的呢？或者，一般情况下，你如何通过机器学习从零开始训练一个自定义的人？蒂娅。

浏览 0提问于2022-05-10得票数 1

1回答

基于Google的嵌套命名实体识别

、、

我们可以通过上传pdf完整的文档，标记简单实体和训练来实现简单的命名实体识别。但是，谷歌云AutoML平台是否支持嵌套命名实体识别(n)？

浏览 6提问于2020-03-11得票数 1

回答已采纳

1回答

使用nltk pos标记时出现错误的zip文件错误

、

我正在尝试使用NLTK标签，但是得到了一个"zipfile.BadZipfile: File不是zip文件“错误。错误来自以下代码： import nltk sentence = "I love python" tokens = nltk.word_tokenize(sentence) pos_tags = nltk.pos_tag(tokens) print nltk.ne_chunk(pos_tags, binary=True) 我发现和我的问题有关。不幸的是，我无法下载整个语料库，因为我在服务器上工作，并且有很多内存限制。有人能给我指一下我需要的文件吗?这样我就

浏览 2提问于2015-05-02得票数 1

回答已采纳

1回答

具有小数据集(语料库)的命名实体识别

、、、

我想开发一个波斯语命名实体识别系统，但我们有一个小的NER标记语料库来训练ans测试。也许将来我们会有一个更好更大的语料库。顺便说一句，我需要一种解决方案，无论何时添加新数据，而不合并新数据和旧数据，以及从零开始进行培训，我都需要得到更好的性能。有什么解决办法吗？

浏览 2提问于2015-06-14得票数 1

1回答

命名实体标记语料库

、

我正在寻找命名实体标注语料库的英语新闻领域在文本和语音(转录)在同一时间段。如果任何人有任何关于语料库的信息，请给我发送链接。谢谢卡达卡

浏览 1提问于2012-05-20得票数 1

1回答

NER德国自然物体

、、、、

我对R有一定的了解，我刚刚开始使用python来进入自然语言处理，对语义分析和命名实体识别特别感兴趣(我目前正在学习spaCy)。我有人文科学的背景，几乎没有计算知识。考虑到这一点，我感兴趣的是探索特定时期德国文学中的情感，与这部文学产生的特定地区和时间的地理位置和自然元素的使用和引用有关。我认为我可以使用带有标记的地点/自然元素的字典与情感字典相结合，并在R中继续我的语料库的文本挖掘，通过分析情感是如何在我感兴趣的实体附近(或与实体相关)表达的。因此有两个问题:这样的NER字典是否存在地理/自然元素，以及它们是否存在于德语中？我在哪里可以找到它们？我非常乐意阅读任何形式的建议。谢谢

浏览 22提问于2020-07-17得票数 0

1回答

斯坦福NLP -确定各自的意图

、、、

在Stanford NLP中，有一个命名实体识别器功能，用于识别对话中的实体。有没有一种方法可以配置可以训练成指向特定意图的话语？类似于LUIS (微软)的东西。

浏览 0提问于2018-07-10得票数 1

1回答

从Wordnet命令行工具获取POS概率

、

我正在写一些ruby通过wn命令行工具访问wordnet的实验，因为我放弃了让wordnet gem工作。我希望能够查找词义的频率，最终能够计算出给定单词是名词/形容词/动词/副词的概率。我尝试过文档，但它并不总是那么明确。如果不使用wn工具，这是可能的吗？我是不是认为wordnet包含了这些信息？

浏览 0提问于2011-06-17得票数 1

回答已采纳

3回答

替代纳塔格长，异质短语？

、、、、

我正在寻找关于以下问题的想法和想法：我正在处理食品配料数据，如:牛奶，糖，鸡蛋，面粉，可能含有坚果。从这段文字中，我希望能够识别和提取可能包含坚果的短语，并分别对它们进行预处理。这些短语在长度和内容上都会发生很大的变化。我曾想过使用NER，但我不知道他们是否会正确地完成这项工作，因为他们主要用于识别单个单词的实体. 关于什么作为短语-实体-识别系统，有什么想法吗？另外，你会用哪一个包裹？干杯

浏览 10提问于2021-02-03得票数 2

3回答

识别印第安名字的NER模型

、、、、

我计划使用命名实体识别(NER)技术从给定的文本中识别人的名字(其中大多数是印度人的名字)。我已经从斯坦福NLP探索了基于CRF的NER模型，但是它在识别印第安名字方面并不十分准确。因此，我决定通过监督培训创建自己的自定义NER模型。我对如何使用斯坦福大学通用报告格式创建自己的NER模型有一个很好的想法，但创建一个带有人工注释的大型培训语料库是我想要避免的，因为这对于个人来说是一项巨大的努力，其次，从不同的印度邦获得不同的人的名字也是一项挑战。有谁能提出任何自动化/程序化的方法来编写一个标有至少100000个印第安名字的培训语料库？我已经研究过Facebook和LinkedIn API，但没

浏览 0提问于2015-08-18得票数 5

回答已采纳

2回答

NLP的注释者协议得分？

、

我有几个注释者，他们为我注释字符串，以训练一个新的模型。注释是以json格式完成的，它包含一个字符串，后面跟着命名实体的开始和结束索引，以及它们各自的实体类型。在这种情况下，计算IAA分数的最佳方法是什么？是否有可用的工具或Python库？

浏览 0提问于2021-07-22得票数 4

2回答

文本中单词分类的可用选项？

、

我正在研究如何在文本中对单词进行分类，我想知道有哪些选择，哪些最适合这项工作。我最感兴趣的是关键字，这些关键字通常是名词。到目前为止，我知道我可以使用Bayes分类器、黑名单或白名单。然而，到目前为止，我还没有得到这些方面的好运气。我从一个白名单开始，使用字网和莫比提供的单词来尝试识别每个名词。然而，许多词被忽略了，因为数据库中不存在，或者不是名词。接下来，我试着建立一个黑名单来匹配所有的东西，除了已知的停止词，动词等等。然而，要建立一个足够大的清单来处理已知的20万个英语单词(更不用说其他语言)，需要花费很长的时间。此外，将这么多单词保存在内存中进行比较对于商品硬件的性能来说是不切实际

浏览 0提问于2012-02-13得票数 3

回答已采纳

1回答

apache UIMA与Apache的区别

、、

我一直在使用Apache OpenNLP进行一些功能测试，它具有句子检测、令牌化、命名实体识别等功能。现在，当我开始查看UIMA文档时，它在UIMA主页上被提到了--“语言标识”( => )语言特定分段“=>”句子边界检测“=>”实体检测(人员/地名等)“。也就是说，我可以使用UIMA来完成与OpenNLP相同的任务。两家公司都有什么新增功能？我是这方面的新手，请帮助我理解这两个方面的用途和能力。

浏览 2提问于2015-05-19得票数 15

回答已采纳

1回答

如何创建新实体并使用它在我的测试数据中查找该实体？如何使我的标记工作？

、、

我想做一个新的实体:让我们称之为“医学”，然后用我的语料库来训练它。从那里，确定“医学”的所有实体。不知怎么我的代码不起作用了，有人能帮我吗？ import nltk test= input("Please enter your file name") test1= input("Please enter your second file name") with open(test, "r") as file: new = file.read().splitlines() with open(test1, "r

浏览 0提问于2018-06-29得票数 0

回答已采纳

1回答

如何用NLTK构建词性标注语料库？

、、、、

我尝试从外部.txt文件构建一个POS标记的语料库，用于分块、实体和关系提取。到目前为止，我已经找到了一个繁琐的多步解决方案：将文件读入纯文本语料库：从nltk.corpus.reader import PlaintextCorpusReader my_corp = PlaintextCorpusReader("."，r".*.txt") 带有内置宾州POS标签的标记语料库： my_tagged_corp= nltk.batch_pos_tag(my_corp.sents()) (顺便说一句，在这个池塘，Python抛出了一个错误：NameE

浏览 3提问于2016-06-24得票数 3

5回答

斯坦福NER工具包-小写实体识别

、、

我是NLP的新手，正在尝试弄清楚命名实体识别器如何注释命名实体。我正在尝试使用斯坦福NER工具包。当我在标准的更正式的数据集上使用NER时，NER会正确地注释实体，其中遵循所有命名约定来表示命名实体。然而，当我使用非正式数据集运行NER时，例如twitter，其中命名实体可能没有像应该的那样大写，NER不注释实体。我使用的分类器是一个3-CRF序列化分类器。有没有人能告诉我如何让NER也能识别小写实体？任何关于如何破解NER以及在哪里进行改进的有用建议都是非常感谢的。提前感谢你的帮助。

浏览 1提问于2010-11-21得票数 6

1回答

从文本中提取产品实体

、

我试图使用一个名为的实体识别器从给定的文本中提取产品名称。呃，输入文字：“Google使google适合” 预期产出：Google (产品) 是否已经有任何工具可用于此？(我测试了与提取产品名称无关的炼金术API ) 如果没有这样的工具，我如何建立自己的培训模型来实现这一点？

浏览 1提问于2014-11-16得票数 3

2回答

大型分类文档语料库

、、、

谁能告诉我一些我用来分类的大型语料库？但我指的不是路透社或20个新闻组，我说的是GB大小的语料库，而不是20MB或类似的内容。我只能找到这个路透社和20个新闻组，这对于我需要的东西来说是非常小的。

浏览 1提问于2015-08-27得票数 5

2回答

从大型文本语料库中的给定术语列表中找到最相似的术语。

、、、

我有两百万的播客名单。此外，我有一个巨大的文本语料库从一个子-Reddit(帖子，评论，线程等)我们列表中的播客经常被用户提及。我想要解决的任务是，我必须用我们的语料库中的每个名字来计算提到的次数。换句话说，生成(name: count)对的字典。这里的挑战是，这些Podcast的大多数名字都有几个字长，例如：“犹他州正午新闻”；“国会听到技术政策辩论”等等。然而，Reddit用户所提到的通常是原始名称的一个粗略的子串，例如：“犹他州正午/犹他州新”或“国会技术辩论/国会听到技术”。这使得从列表中识别姓名相当困难。我尝试过的:首先，我处理并连接原始播客名称中的所有单词为一个单词。例如，“国

浏览 5提问于2021-10-30得票数 0

回答已采纳

1回答