我很困惑,因为google不能用每个人的个人词汇来训练他们的文本生成模型。
我试图开发类似的东西,但在神经网络训练期间,当类的数量变得动态时,我被卡住了。
如果我不知道类的数量,1怎么能给出层的大小和输入的尺寸。
假设谷歌知道英语词汇中的单词,我把我的俚语中的一些单词放到了我的个人词典中,它能够在将来向我推荐这些单词。
假设谷歌词汇由10个单词组成,我给它一个序列中的5个单词,它将它们编码成1和0的(5x10)向量的大小。
然后我加入了4个新单词。现在总单词大小= 14
但是RNN (如果使用)是使用只有10个单词的单词大小进行训练的。它不能对这些新单词进行编码,因为这些单词在训练时不属于单词。
它是否使用(5x14)大小的向量重新训练其文本生成模型?
发布于 2019-12-12 08:17:13
根据这个谷歌AI article,他们使用了两个东西的组合:
在您的情况下,我建议如下:
你的RNN需要在character-level上进行训练,而不是在单词级别上进行训练,以跟踪misspellings.
https://stackoverflow.com/questions/59299832
复制相似问题