为什么填充词汇表的困惑在nltk.lm二元语法中是不定式？

在nltk.lm二元语法中，填充词汇表的困惑通常用不定式来表示。这是因为在二元语法中，我们需要为每个句子的开头和结尾添加填充标记，以便模型能够正确地学习上下文信息。填充标记相当于句子的起始和结束符号。

使用不定式来表示填充词汇表的困惑是一种常见的做法，它可以方便地将填充标记添加到句子的开头和结尾。不定式是一种形式简单的动词形式，例如“to fill”（填充）就是不定式。它没有人称和时态的变化，可以用于表示一种普遍存在的行为。

在nltk.lm中，我们可以将填充标记表示为一个特殊的不定式，例如“<s>”表示句子的开头，而“</s>”表示句子的结尾。通过将这些填充标记添加到句子中，我们可以构建二元语法模型，并使用该模型进行语言建模和生成等任务。

在使用nltk.lm进行二元语法建模时，我们需要将语料库中的句子转换为以填充标记开头和结尾的句子，然后将其用于模型的训练和预测。这样，模型就能够准确地处理上下文信息，并生成合理的句子。

总结起来，使用不定式来表示填充词汇表的困惑在nltk.lm二元语法中是为了方便地添加填充标记，并确保模型能够正确地学习上下文信息。

页面内容是否对你有帮助？

有帮助

没帮助

为什么填充词汇表的困惑在nltk.lm二元语法中是不定式？

、

我正在测试一个文本的语言模型的perplexity度量： train_sentences = nltk.sent_tokenize(train_text) from nltk.lm import Vocabulary print("len: ",len(sentence

浏览 13提问于2019-03-05得票数 3

1回答

使用countVectorizer计算我自己在python中的词汇量

、

Data tracking']my_vocabulary= [‘was the fallacy’, ‘free to’, ‘stripped-down’, ‘ever more’, ‘of the workforce’, ‘the traits needed’] 重点是我的词汇表中的每个单词都是二元或三元词。我的词汇表包括了我的文档集中所有可

浏览 51提问于2018-04-03得票数 4

回答已采纳

1回答

在tf-idf中使用三元组时，我是否应该包括单元组和双元组？

、、、

当我使用二元组时，我将二元组的列表附加到单元组，并将其用作我的语料库。对于三元模型，我将三元模型添加到unigram中，但忽略了二元模型。这是正确的方法吗，或者如果我想合并三元模型，那么包含二元模型会更好吗？相反，这个过程应该是:unigram -> unigram+二元语法-> unigram+二元语法+三元语法？

浏览 1提问于2018-09-18得票数 0

1回答

如何在countVectorizer中使用二元+三元+词标词汇？

、、、

我读了一篇研究论文，作者使用了以下几种方法： bigrams + trigrams + word-marks vocabulary 他在这里所说的单词标记，指的是特定于某种方言的单词。如何在countVectorizer中调整这些参数？单词标记这些是单词标记的例子，但我没有，因为我的是阿拉伯语。所以我翻译了它们。word_marks=['love', 'funny', 'happy', 'ama

浏览 23提问于2019-05-11得票数 0

回答已采纳

1回答

如何使用nltk计算困惑

、

这是我代码的一部分：raw = fp.read()words = nltk.tokenize.word_tokenizebigrams = ngrams(words,2, left_pad_symbol='<s>', right_pad_symbol=</s>)在旧版本的nltk中，我在perplex

浏览 4提问于2019-03-01得票数 3

回答已采纳

1回答

如何在R中使用wordVectors包中的word2phrase函数来获取ngram？

、

我想使用wordVectors包中的word2phrase()函数来生成一些ngram，以便随后使用train_word2vec()进行训练。第二次运行时，我得到了以下输出消息：Words in train file: 258092 因此，每次我运行它时，“训练文件中的单词但是当我检查输出文件"ngrams.txt“时，并没有什么真正的变化:我在文件中只有1-gram和2-gram

浏览 0提问于2017-03-25得票数 2

1回答

如何在python中计算多个输入中的二元语法

在我开始之前，这里是我的学习材料(Grok Learning，Python)中的确切说明：“编写一个程序，从用户那里读取多行输入，其中每行都是一个空格分隔的单词句子。然后，你的程序应该在所有输入句子中计算每个二元语法出现的次数。通过将输入的句子转换为小写字母，应该以不区分大小写的方式处理二元语法。一旦用户停止输入，您的程序应该打印出出现多次<em

浏览 1提问于2018-05-21得票数 0

1回答

如何正确使用mask_zero=True进行Keras嵌入预训练权值？

、、、

如果我也在设置Embedding，那么我很困惑如何为Keras mask_zero=True层设置我自己的预先训练过的权重。这是一个具体的玩具例子。]我想嵌入长达5个字的句子，所以在将它们输入嵌入层之前，我必须将它们零填充。我想掩盖零，以便更多的层不使用它们。读取用于嵌入的Keras文档时，它说0值不能出现在我的词汇表中

浏览 1提问于2018-07-17得票数 6

回答已采纳

1回答

为什么语言模型中的“添加一个平滑”不计算分母中的</s>

、

英语不是我的母语，对于任何语法错误，我深表歉意。我在语言模型中看到了许多关于添加一次平滑的文档，我仍然对公式中的变量V感到非常困惑：对于这个例子，语料库和我使用的是二元语法V将是11，因为w_i-1，w的组合计数是11。但是我发现它没有包括case ，<em

浏览 0提问于2018-11-08得票数 1

1回答

使用rdoc:有什么方法可以给call-seq增加缩进吗？

、

在这种环境中不是一个选项。所以我使用rdoc，call-seq通常很好，但我想为始终以块/产出样式使用的call-seq添加缩进，如下所示： someFunc { } 这是可悲的。我知道我可以使用一个单独的代码块作为示例，但这实际上是通用API的一部分，说明应该如何调用它，如果我可以使用call-seq (而不是代码块丑陋的反转颜色)，那就太好了。我猜由于rdoc

浏览 3提问于2021-10-27得票数 0

1回答

两段几乎相同的代码，但其中一段会在python中产生localunbounderror。

、

因此，我创建了两个随机单词生成器，一个基于二元语法，另一个基于三元语法。在每种情况下，我都设置了一个字典(或者叫做bigrams，它有两个嵌套的字典，或者trigram，它有三个嵌套的字典)...and有很多其他的代码，但是下面这一行在trigram生成器中引起了一个问题：不过，在这里，在我的二元语法生成器(可以正常工作)中，变量"Fo

浏览 2提问于2012-10-13得票数 2

回答已采纳

2回答

递归神经网络中零填充与字符填充的区别

、、、

为了使RNN高效地工作，我们将问题向量化，生成一个形状的输入矩阵。其中m是例句的数目，例如句子，max_seq_len是句子的最大长度。有些例子的长度比这个max_seq_len小。解决办法之一是把这些句子填平。 [

浏览 0提问于2021-02-27得票数 0

回答已采纳

1回答

在python中使用sklearn for n-gram计算TF-IDF

、、、

我有一个包含n-gram的词汇表，如下所示。中打印配方1的标记或n元语法以及tF-idf值，如下所示。in feature_index]) print(w, s) 我得到的结果是但是，在计算TF-IDF值时，我的代码不能检测n元语法(二元语法)，比如b

浏览 0提问于2017-10-05得票数 9

回答已采纳

1回答

为什么MALLET LDA需要保持顺序？

、、、

在MALLET文档中，主题模型训练需要--keep-sequence标签(详情请参见：)感谢您阅读这篇文章。

浏览 1提问于2015-03-13得票数 2

2回答

为什么input_dim需要用词汇表+ 2？

、、、、

在Embedding 的Keras文档中，对mask_zero的解释是 mask_zero:输入值0是否是一个特殊的“填充”值，需要屏蔽。这是有用的，当使用递归层，可能采取可变长度的输入。如果这是真，那么模型中的所有后续层都需要支持掩蔽，否则会引发异常。因此，如果mask_zero设置为True，则无法在词汇表中使用索引0 (input_dim

浏览 3提问于2017-04-05得票数 8

回答已采纳

1回答

支持左递归和语法歧义的只标头线性时间C++11聚乙二醇解析器生成器

、、、、

我已经将我的原始解析器生成器重写为一个只使用标头库的库，该库使用模板和函数，以提高类型的安全性和清晰度。生成的解析器创建一个抽象语法树，它可以使用functionals和访问者模式进行有效的评估。解析器存储中间步骤，从而保证线性解析时间(如果语法包含左递归，则在最坏情况下为平方)。我的目标是创建一个通用的C++解析器生成器，重点是可用性。，其中，如果x是一个变量或b)一种类型，显然

浏览 0提问于2014-12-08得票数 27

回答已采纳

1回答

bigrams的CountVectorize词汇规范

、

以下代码适用于逐个单词的大小写，但不适用于二元语法：Python返回大概是因为我向二元语法向量计数

浏览 0提问于2018-07-03得票数 0

1回答

尝试用gensim模仿Scikit ngram

、、

我正在尝试用gensim模拟CountVectorizer()中的n_gram参数。我的目标是能够将LDA与Scikit或Gensim一起使用，并找到非常相似的二元语法。例如，我们可以找到以下带有scikit的二元模型："abc computer"，"binary unordered“和gensim "A survey"，"Graph minors”…… 我在下面附上了我的代

浏览 1提问于2017-05-11得票数 0

2回答