语言生成
自然语言生成是一个旨在生成有意义的自然语言的领域。
大多数情况下,内容是作为单个单词的序列生成的。...总的来说,它的工作原理如下:
你训练一个模型来预测序列中的下一个单词
您给经过训练的模型一个输入
重复N次,生成下N个单词
?...所有文章都在一个单独的标记文件中编写。标题主要包含标题、图片标题等信息。...它从前两个单词开始,然后逐渐添加单词:
[656, 6]
[656, 6, 3]
[656, 6, 3, 2284]
[656, 6, 3, 2284, 6]
[656, 6, 3, 2284, 6,....,
e.拆分X和y
现在我们有固定长度的数组,它们中的大多数在实际序列之前都是0。那我们如何把它变成一个训练集?我们需要分开X和y!记住,我们的目标是预测序列的下一个单词。