使用词汇类型标记训练数据时出现‘'Illegal’消息

文章/答案/技术大牛

发布

1回答

bixby、bixbystudio

我正在尝试使用vocab文件来标记我的训练数据，以减少我需要添加的训练短语的数量，例如，使用Bill vocab，它允许“bill”或“invoice”的互换使用。我已经添加了一个Bill枚举类型和一个Bill vocab文件。然而，当我尝试在我的训练短语中使用值Bill:Bill来标记单词'bill‘时，我在训练条目中得到了一条’非法计划‘的消

浏览 17提问于2019-04-17得票数 0

1回答

转换器/伯特令牌预测词汇表(从一组可能的令牌中筛选出特殊令牌)

bert-language-model、transformer-model

对于转换器模型，特别是对于BERT，以编程方式禁止以特殊令牌作为预测结果的模型是否有意义(并且在统计上是正确的)？这在最初的实现中是怎样的呢？在趋同过程中，模型必须学会不去预测这些，但这种干预是否会有所帮助(或相反)？

浏览 6提问于2021-02-13得票数 3

1回答

GPT如何处理大型词汇表？

deep-learning、nlp、gpt

据我所知，GPT和GPT-2被训练用来预测给定以前的N^{th}单词的句子中的N-1单词。当词汇量非常大(100k+单词)时，如何才能产生任何有意义的预测？

浏览 0提问于2020-07-11得票数 7

回答已采纳

1回答

Tensorflow colab教程，介绍如何用Transformers，https://www.tensorflow.org/tutorials/text/transformer来翻译语言，他们用一个子单词文本标记器来标记这些单词我以前从未见过一个子词记号器，也不知道为什么或什么时候应该使用它，而不是单词记号器。7915 ----> T7946 ----> s有谁知道将单词分解成子词的好处是什么，

浏览 0提问于2020-10-09得票数 3

回答已采纳

2回答

在分类模型中处理新特征

machine-learning、sentiment-analysis、text-classification

我的方法是进行通常80%的训练数据集和20%的测试。有了一个经过训练的模型，当新特征出现(文本中的新词没有出现在初始数据集中)时，在生产环境中进行的最佳方式是什么？

浏览 19提问于2017-08-08得票数 0

2回答

机器翻译的词汇量

machine-translation、vocabulary

在进行机器翻译时，如果您分割单词，例如使用BPE，那么处理后的词汇量有多大？

浏览 41提问于2020-11-19得票数 0

回答已采纳

1回答

斯坦福CoreNLP:如何将一个标准的、但经过俄罗斯训练的NER模型与完全自定义的lemmatisation模型集成在一起？

nlp、stanford-nlp、named-entity-recognition

作为我大学项目的一部分，我目前正在研究一种适用于俄语的共指标记算法，基于斯坦福大学的CoreNLP。在很大程度上，这很容易:已经有了俄罗斯的lemmatisation和PoS标记模型。然而，没有用于该语言的NER模型，至少基于CoreNLP，因此，我必须使用CoreNLP的统计方法自己训练这样的模型。问题在于如何使这个新的经过训练的NER模型适应lemmatisation和PoS- to模型。虽然我的模型是纯统计的，仍然基于原始的CoreNLP代码，但另外两个完全不同。

浏览 21提问于2019-03-17得票数 0

1回答

在预训练的GenSim Word2Vec中处理新词

python、pytorch、gensim、word2vec、embedding

我在gensim 3.6中使用预训练的word2vec嵌入(word2vec-google-news-300)。我应该如何使它适应pad令牌？

浏览 7提问于2021-11-25得票数 0

2回答

WordPiece标记化如何帮助有效地处理NLP中的稀有单词问题？

nlp、word-embedding

在playing中，我们将像play和##ing.这样的令牌拆分为有人提到，它涵盖更广泛的范围外词汇(OOV)的词汇.请有人帮我解释一下WordPiece标记化是如何实现的，它是如何有效地处理稀有/OOV

浏览 0提问于2019-03-27得票数 52

回答已采纳

1回答

如何找到"num_words“或词汇表大小的Keras标记器时，一个没有分配？

machine-learning、keras、deep-learning、nlp、tokenize

那么，如果我在初始化Tokenizer()时没有传递num_words参数，那么在使用词汇表大小对训练数据集进行标记化之后，我如何找到它呢？为什么这样，我不想限制记号赋予器的词汇表大小，以了解我的Keras模型在没有它的情况下有多好。但是，我需要将这个词汇表大小作为模型的第一层定义中的参数传递。

浏览 3提问于2018-11-29得票数 10

回答已采纳

2回答

包装的情感分析工具(TextBlob/NLTK)和训练你自己的分类器之间的区别？

machine-learning、nlp、sentiment-analysis、nltk、classifier

我在实践中对ML和训练分类器很陌生，所以我想知道NLTK和TextBlob等包的内置情感工具与手动创建分类器(培训、测试等)有什么不同。我想我在某个地方读到了这样的评论:Textblob/NLTK现有的情感分析工具基本上只是标记文本，并计算肯定/否定的单词数，以确定总体情绪评级(不确定这有多准确)。有没有人知道，一般来说，使用自定义分类器可以更好地对文本进行情感分析(我正在分析酒店评论中表达的情感)？

浏览 0提问于2019-12-06得票数 1

回答已采纳

3回答

有没有办法从doc2vec模型中获得词汇表的大小？

gensim、word2vec、doc2vec

我正在使用gensim doc2vec。我想知道是否有任何有效的方法来了解doc2vec的词汇表大小。一种粗糙的方法是计算单词总数，但是如果数据是巨大的(1GB或更多)，那么这将不是一种有效的方法。

浏览 5提问于2017-01-12得票数 7

回答已采纳

1回答

使用infer_vector()检查doc2vec的模型过拟合

python、testing、nlp、gensim、doc2vec

我目前正在尝试评估我训练过的Doc2Vec模型，方法是在看不见的test_df上用infer_vector()推断向量，然后再用it.However进行预测，结果非常糟糕。vecs)test_df = pd.concat([test_df, vectors_test], axis=1) 然后我使用我的

浏览 0提问于2020-10-26得票数 2

2回答

训练前语料库的word2vec词汇化

nlp、word2vec、gensim、lemmatization

Word2vec似乎主要是在原始语料库数据上训练的。然而，词汇化是许多语义相似性任务的标准预处理。我想知道是否有人有在训练word2vec之前对语料库进行词汇化的经验，以及这是否是一个有用的预处理步骤。

浏览 2提问于2014-05-27得票数 30

回答已采纳

2回答

Gensim Word2Vec缺少输入单词的向量

gensim、word2vec

我训练过的Gensim Word2Vec缺少某些单词的向量。也就是说，尽管我有一个单词"yuval“作为输入，但该模型缺少一个向量。原因是什么？

浏览 1提问于2019-05-30得票数 0

2回答

用例子解释bpe (字节对编码)？

algorithm、nlp、tokenize

到目前为止，我所知道的是，它通过将稀有和未知的单词编码为子词单元序列来实现开放词汇表上的NMT模型翻译。但我想了解一下它是如何工作的，而不用看这篇论文。

浏览 3提问于2018-05-29得票数 9

2回答

为自定义词汇表创建一个N-gram模型

python、nlp、nltk、prediction、n-gram

而且我的训练数据集将有一些与我的语音列表格式完全相同的数字，如下所示：现在，我的问题是，我是否可以建立一个N-Gram模型，可以使用训练数据进行训练？然后，用这个模型来预测一个新单词出现的可能性。我正在使用py

浏览 0提问于2018-12-12得票数 1

回答已采纳

1回答

如何匹配NLP弓的新记录中的特征

machine-learning、nlp、feature-extraction

我有一个包含100,000条记录的数据集此数据集中的数据为2列1-文本2-类当我应用我的模型的弓时，我得到了一个很大的特性列表很好，我设法和他们一起工作了我的问题是在构建模型和部署之后。现在，如果新文本包含新单词，则模型将无法工作，因为它在相同的特征结构中工作示例“这是一个测试，测试很重要”，红色"Adam通过测试“，绿色所以我的最终数据集是 This is a test important1 1 Green 一旦创建了模型并获得了以下文本 “测试和考试相似”，黄色在这种

浏览 16提问于2020-07-09得票数 0

回答已采纳

2回答

如何在LSTM网络中设置词汇量、填充长度和嵌入维数？

python、lstm、rnn、text

通常，在LSTM网络中，在模型开始训练之前，我们需要设置一定的参数。我是专门谈论词汇表的大小，填充长度和嵌入尺寸。PS:从答案中我了解了如何设置词汇量。填充长度应大于火车组中文本的最大长度(而不是整个集，因为这会导致数据泄漏！)但是当通过HP调优来设置嵌入维时，这将是一个耗时的过程，对于每一个组合，我都要运行整个模型，正如您所知道的，神经网络需要很长时间才能运行。有没有更好的办法？

浏览 0提问于2022-01-27得票数 0

回答已采纳

1回答

用新数据训练Doc2vec

document、word2vec、word、skip、doc2vec

我正在继续使用model.train()来训练我的模型。新的数据也有新的标签，但是，当我在更多的文档上训练它时，新的标签不会被记录.有人知道我的问题可能是什么吗？

浏览 0提问于2020-07-08得票数 0

点击加载更多