基于 和, 通过计算每个词在给定先行词下的概率的积, 能估计整个句子或文档的积:
在基于 n-gram 的 LM 中, 通过单词所在 n-grams 的频率来计算其概率:
5-gram + Kneser-Ney...在神经网络中, 一般使用 softmax 来计算单词概率:
. h 是输出层前一层的输出向量, v’ 是单词对应的 embedding....为此, 他们提出了一个 objective function J, 直接最小化 A.两个单词的 vectors 的点积与 B.它们同时出现的次数的对数的差:
式中, w_i, b_i 是单词 i 的词向量和...X_ij 是 i 出现在 j 的context 中的次数. f 是一个 weighting function, 它为很少同时出现和频繁同时出现的情况赋一个较低的权值....Models
是一种度量两个单词间 的常用方法, 定义为两个单词的与点积的:
. 当两个单词从来没有同时出现过, P(w, c)=0, PMI(w, c)=log0=-∞.