假设语料库中的单词数量是N,则上图矩阵的大小就是N*N,其中的每一行就代表一个词的向量表示。如第一行0 2 1 0 0 0 0
是单词I的向量表示。...但是这种办法至少有三个缺陷:
1、是词语数量较大时,向量维度高且稀疏,向量矩阵巨大而难以存储
2、是向量并不包含单词的语义内容,只是基于数量统计。...3、是当有新的词加入语料库后,整个向量矩阵需要更新
尽管我们可以通过SVD来降低向量的维度,但是SVD本身却是一个需要巨大计算量的操作。
很明显,这种办法在实际中并不好用。...(the,quick)单词对就表示成【(1,0,0,0,0,0,0,0),(0,1,0,0,0,0,0,0)】
这样就可以输入神经网络进行训练了,当我们将the输入神经网络时,希望网络也能输出一个8维的向量...5、输出层
当我们从隐藏层获得一个单词的词向量后,就要经过输出层了。
输出层的神经元数量和语料库中的单词数量一样。