本质上,我没有足够的RAM来从零开始训练我想要的模型,同时使用2000类。因为这个原因,我想知道我是否可以使用一个由200个神经元组成的输出层,然后用这200个类训练模型,然后加载相同的权重,然后再用200个不同的类来训练模型,直到我用所有的2000个类来训练模型。
注意,这个数据集被用来对模型进行预训练,这样我就可以用另一个小得多的数据集重新训练模型。从本质上说,我想用这个大数据集对模型进行预训练,然后切换输出层,用一个小得多的数据重新训练模型的最后几层。
这种训练方式在隐藏层上实现的权重是否与2000年课程中的一次训练模式相同?
发布于 2022-08-07 22:16:29
不是的。你的体重会不一样。只有当你训练一个线性模型,而不是神经网络时,这才能起作用。
我觉得很可疑的是,问题在于从200项到2000年的产出数量。这是增加10倍内存使用的最后一层,但这不应该是一个巨大的数字开始,也许你的最后(时间)隐藏层是不是太大了?即使你之前的层也是2000,这也会给我们一个2000×2000的矩阵,它仅仅是4,000,000浮点数-- 16兆字节。
https://stackoverflow.com/questions/73271378
复制相似问题