我是在阅读squeeze net论文时遇到这个问题的。作者表示,他们使用Deep Compression来压缩预先训练的模型。该算法包括哈夫曼编码等。
我推断预训练的都是参数,我知道这些参数是在训练网络时生成的,但我不知道这些参数是如何生成的。在进行预测时,预训练模型的参数起到了什么作用?
在我听来像是黑魔法
发布于 2016-11-30 06:23:12
预先训练的模型由去往/来自每一层的每个内核的所有层连接的权重组成。这就是最初的40-80个训练时期的“繁重任务”。它应该准备好进行预测,或者继续进行您愿意应用的任何微调。
这不是真正的黑魔法。每个框架都有一个工具,可以在指定的时间间隔和完成训练时转储(备份)参数值。当然,这些都是相对较大的文件--因此需要使用压缩。每个框架都有一个工具来读入这样的转储文件,以便引导模型。
https://stackoverflow.com/questions/40875271
复制相似问题