四、嵌入矩阵
如下图示,左边是词嵌入矩阵,每一列表示该单词的特征向量,每一行表示所有单词在某一特征上的值的大小,这个矩阵用\(E\)表示,假设其维度是(300,10000)。...右边矩阵是某一列单词的One hot向量,这里以orange为例,其Onehot向量为\(O_{6257}=[0,…,1,…,0]\)。
?...这种获取某个单词特征向量的方法涉及太多运算,所以一般在实际操作中是直接对词嵌入矩阵做列选择即可得到所需单词的特征向量的。...说一下这一小节的感受,虽然最后吴大大也说了在实际操作中只需要做列选择就可以了,但是不明白他为什么还要介绍前面所谓的矩阵相乘运算。。。。...如果真的按照自然随机分布的方式去选择,可能会大量重复的选择到出现次数频率很高的单词比如说“the, of, a, it, I, ...” 重复的训练这样的单词没有特别大的意义。