我正在研究语言模型。在最后一层中,我使用的是输出大小等于声声大小的密集层,这一层为训练贡献了巨大的参数。
如何减少语言模型中最后一层的大小?最后一层的大小应该等于声标大小吗?如果是的话,如果我们有大的话,模型会不会是大的?
发布于 2022-10-20 09:36:33
是的,最后一层的大小应该等于词汇表的大小。下面是来自TF教程的解码器示例
# This fully connected layer produces the logits for each output token. self.output_layer = tf.keras.layers.Dense(self.vocab_size)
要修复模型的大小,可以在文本矢量化步骤上设置最大词汇表大小。
https://stackoverflow.com/questions/74133933
相似问题