“吴恩达老师课程原地址[1]
“Mikolov T, Chen K, Corrado G, et al. Efficient Estimation of Word Representations in Vector Space[J]. Computer Science, 2013.
Content | Target |
---|---|
orange | juice |
orange | glass |
orange | my |
和
表示词嵌入向量 Context,使用
表示词嵌入向量 Target
,
是一个与输出 t 有关的参数即表示和标签 t 相符的概率
其中 表示 Target 的真实值,而 表示模型得出的 Taret 的预测值。
y 是一个与词汇表中词汇数量相同维度的 one-hot 向量,例如:如果 y 表示 juice,其在词汇表的序号是 4834,且词汇表中总共有 1W 个单词,则 y 为一个 1W 维度的向量并且第 4834 维的值为 1 其余维度均为 0。
是一个从 softmax 单元输出的具有 1W 维度的向量表示所有可能目标词的概率。
的值,softmax 单元也有参数
,如果通过反向传播算法优化损失函数 L,你就会得到一个很好的嵌入向量集。此就称之为--skip-gram 模型。
[1]
吴恩达老师课程原地址: https://mooc.study.163.com/smartSpec/detail/1001319001.htm