如何从头开始为BIOES/BILOU格式的自定义多类standfordNLP/Stanza NER标记模型构建训练数据集？

、、、

我正在将NLP用于一个自定义应用程序，并且我想用StanfordNLP训练自己的NER标记器模型。默认模型仅限于非常通用的标签，如LOC、PER、MISC、COUNTRY、TIME等。我的自定义标记更加具体，例如。食品，体育，软件，品牌。我该如何格式化我从网上或从PDF文件中删除的BIOES/BILOU</e

浏览 27提问于2020-04-17得票数 2

3回答

有没有可能训练斯坦福NER系统来识别更多的命名实体类型？

、、

我现在正在使用一些NLP库(stanford和nltk) Stanford我看到了演示部分，但只是想问一下是否可以使用它来识别更多的实体类型。因此，目前斯坦福NER系统(如演示所示)可以将实体识别为个人(姓名)、组织或位置。但被认可的组织仅限于大学或一些大型组织。我想知道我是否可以使用它的API为更多的实体类型编写程序，比如如果我的输入是"Apple“或"Square”，它可以将其识别为一家公司。我必须创建自己的训练</e

浏览 1提问于2014-03-04得票数 28

回答已采纳

6回答

在命名实体识别中，BILOU标签意味着什么？

、

我注意到，在一些论文中，人们提到了NER的BILOU编码方案，而不是典型的生物标签方案(例如Ratinov和Roth在2009年发表的这篇论文)。通过使用2003年的CoNLL数据，我知道I stands for 'inside' (use it concurrently with the 'last

浏览 7提问于2013-06-15得票数 48

回答已采纳

1回答

如何为OpenNLP准备训练数据，以对包含多个单词的token进行标记化？

、、、

因此，一些包含多个单词的标记可以被标记，而不仅仅是使用空格。phương", "đã", "nhiều", "lần", "báo", "Điện lực", "Bến Tre", "nhưng", "chưa", "được", "giải quyết"] 训练数据我将需要粘合在一起的

浏览 1提问于2018-07-17得票数 3

3回答

基于深度学习的自定义命名实体识别

、、、

我有一个有两列的数据集。第一栏有一些文字(新闻文章)，第二栏包含那些新闻文章(第一栏)中人的名字(不完全是英文名称)。我尝试过使用Spacy构建一个名为实体识别器的自定义程序，但是它不起作用。我能用深度学习的方法来识别那些看不见的新闻文章中的名字吗？(测试数据)

浏览 0提问于2019-08-22得票数 1

5回答

使用自定义数据进行NLTK命名实体识别

、、、

我正在尝试使用NLTK从我的文本中提取命名实体。我发现NLTK NER对于我的目的来说并不是很准确，我也想添加一些我自己的标签。我一直在试图找到一种方法来训练我自己的NER，但我似乎找不到合适的资源。我有几个关于NLTK的问题- 我可以使用自己的数据在NLTK中训练命名实体识别器吗？如果我可以使用自己的数据进行训练，_是否对要修

浏览 125提问于2012-07-05得票数 48

3回答

关于NLTK中NER的帮助

、、

我面临的问题是，他们在培训NLTK的NLTK上没有我的自定义数据的帮助。他们使用了MaxEnt，并在ACE语料库上进行了训练。我已经在网上搜索了很多，但是我找不到任何可以用来训练NLTK的人的方法。如果有人可以为我提供任何链接/文章/博客等，这可以指导我培训用于培训NLTK的NER的数据集格式，这样我就可以准

浏览 0提问于2015-01-29得票数 12

1回答

对经过训练的twitter评论进行预分类以进行分类

、、、、

所以我有大约一百万行csv格式的twitter评论数据。我需要将它们归入特定的类别，比如如果有人在谈论：“产品寿命”，“便宜/昂贵”，“特价/折扣”等。如您所见，我有多个类来对这些tweet数据进行分类。问题是，我如何为如此庞大的data.Silly问题生成/创建训练数据，但我想知道是否已经有预先分类/标记的评论数据来<em

浏览 0提问于2014-10-06得票数 1

3回答

OpenNLP托卡器没有检测到属于一起的单词吗？

、、、

根据我的理解，tokenization意味着将文本分割成单词和句子。单词通常被空格隔开，但并不是所有的空白都是相等的。例如，洛杉矶在一个人的思想上，不顾空白处。但是，每当我运行OpenNLP Tokenizer时，它都会为洛杉矶创建两个不同的令牌： Los & Angeles。这是我的代码(我从旧的OpenNLP站点获得了en-token.bin模型)。这是输出：cityLosisofmost beaut

浏览 3提问于2018-07-11得票数 3

1回答

我们可以训练tensorflow.js来获取图像的某些部分吗？

、、、、

我的客户要求用户使用该图像上传图像--首先，我使用了tesseract.js节点模块，但是它没有工作，所以我转到tensorflow.js来创建自己的模型，并对图像的某些部分进行训练。因此，利用tensorflow的目标检测方法，可以检测出图像的特征，得到x和y坐标。如果我使用下面的代码获得坐标，我可以裁剪图像的某些部分。

浏览 11提问于2020-02-25得票数 0

5回答

用自己的数据集训练Yolo

、、、

我想用Yolo建立一个数据库，这是我第一次与深度学习一起工作。对于刚开始深造的人来说，这是不是太难了？

浏览 12提问于2019-10-28得票数 3

4回答

NER语料库的标注训练数据

、、、、

在opennlp的文档中提到，为了获得良好的性能，我们必须用15000行来训练我们的模型。现在，我必须从文档中提取不同的实体，这意味着我必须为训练数据(15000行)中的许多标记添加不同的标记，这将花费大量时间。还有别的办法吗？这将减少时间或任何其他方法，我可以继续。谢谢。

浏览 6提问于2016-05-23得票数 4

回答已采纳

2回答

Stanford自定义分类软件编程关键字

、、、

我是NLP的新手，我使用斯坦福NER工具对一些随机文本进行分类，以提取软件编程中使用的特殊关键字。Java "Programming_Language"Linux "Operating_system" 请您帮助我如何定制StanfordNER分类器以满足我的需要？

浏览 2提问于2014-04-09得票数 1

回答已采纳

1回答

通过imagenet数据库和我的自定义标签使用resnet50模型的Image_classification

、、、

我正在研究image_classification问题(多类)。但是现在，我有了自己的数据集的图像数据和标签数据。当我将图像传递给resnet50模型时，它会返回已经训练好的imagenet标签。但是，如何将输出更改为我自己的标签，而不是imagenet预训练的标签。，并在我的数据集中将其<

浏览 23提问于2019-09-04得票数 1

4回答

带中文的Word2Vec

、、、

我一直在学习Word2Vec(Deeplearning4j)，但我找不到任何支持中文的东西。我从各种渠道了解到，通过使用一些插件，它也可以在中文上工作。所以请告诉我任何中文插件，以及它应该如何在word2vec中实现。以及Deeplearning4j Word2Vec是否适合英文和中文(两者)的支持。如果没有，请建议一些更好的选择与它的链接。

浏览 2提问于2016-05-23得票数 2

1回答

Doc2vec超越初学者指导

、、、

到目前为止，我一直以最基本的方式使用doc2vec，但效果有限。我可以找到类似的文件，但我经常得到很多假阳性。我的主要目标是为用户需求构建一个分类算法。这是为了帮助用户进行需求分析和搜索。我知道这不是一个足够大的数据集，所以有几个问题我想要帮助：如何调整模型，特别是为向量空间选择合适的维数。如

浏览 0提问于2019-03-25得票数 3

1回答

不平衡标签-混淆矩阵中更好的结果

我有不平衡的标签。也就是说，在二进制分类器中，我有更多的正面(1)数据和更少的负面(0)数据。我正在使用分层K折叠交叉验证，并得到真正的负片为零。你能告诉我有什么方法可以让真负片得到更大的tan0吗？

浏览 0提问于2016-08-23得票数 0

3回答

非结构化文本分类

、、、

我将对非结构化文本文档进行分类，即结构未知的网站。我所分类的班级数量是有限的(在这一点上，我相信只有三个)。有人建议我该怎么开始吗？我对Mahout和Hadoop有点熟悉，所以我更喜欢基于Java的解决方案。

浏览 0提问于2014-09-05得票数 13

1回答

将DateTimeOffset存储在SQLite.Net中

、、、

我的几个数据模型(也称为表)包含DateTimeOffset类型的属性。其目的是在不丢失偏移信息的情况下存储这些信息。我知道在创建storeDateTimeAsTicks时可以设置的SQLiteConnection参数，将其设置为false将强制所有DateTime属性以ISO格式存储为文本--但是，这不会对DateTimeOffset，并将它们存储在两个单独的列中， =>但是对于这两种方法，我需要向<

浏览 1提问于2017-02-01得票数 10

回答已采纳

1回答

LIBSVM数据准备: Excel数据到LIBSVM格式

我想研究如何执行LIBSVM进行回归，目前我正忙于准备我的数据。目前，我有这种形式的.csv和.xlsx格式的数据，我想把它转换成libsvm数据格式。根据我所读到的，对于回归，“标签”是目标值，可以是任何实数。我在做电力负荷预测研究。有人能告诉我这是什么吗？最后，我应该如何</e

浏览 3提问于2016-11-05得票数 9

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

有没有可能训练斯坦福NER系统来识别更多的命名实体类型？

在命名实体识别中，BILOU标签意味着什么？

如何为OpenNLP准备训练数据，以对包含多个单词的token进行标记化？

基于深度学习的自定义命名实体识别

使用自定义数据进行NLTK命名实体识别

关于NLTK中NER的帮助

对经过训练的twitter评论进行预分类以进行分类

OpenNLP托卡器没有检测到属于一起的单词吗？

我们可以训练tensorflow.js来获取图像的某些部分吗？

用自己的数据集训练Yolo

NER语料库的标注训练数据

Stanford自定义分类软件编程关键字

通过imagenet数据库和我的自定义标签使用resnet50模型的Image_classification

带中文的Word2Vec

Doc2vec超越初学者指导

不平衡标签-混淆矩阵中更好的结果

非结构化文本分类

将DateTimeOffset存储在SQLite.Net中

LIBSVM数据准备: Excel数据到LIBSVM格式

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐