前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Caffe的solver参数介绍

Caffe的solver参数介绍

作者头像
Tyan
发布2019-05-25 23:10:16
7510
发布2019-05-25 23:10:16
举报
文章被收录于专栏:SnailTyan

1. Parameters

solver.prototxt文件是用来告诉caffe如何训练网络的。solver.prototxt的各个参数的解释如下:

  • base_lr 这个参数是用来表示网络的初始学习率的。这个值是一个浮点型实数。
  • lr_policy 这个参数是用来表示学习率随着时间是如何变化的。值是字符串,需要加""。学习率变化的可选参数有: “step”——需要设置stepsize。根据gamma参数和stepsize参数来降低学习率,base_lr * gamma ^ (floor(iter / stepsize))iter是当前迭代次数。学习率每迭代stepsize次变化一次。 “multistep”——与step类似,需要设置stepvalue,学习率根据stepvalue进行变化。 “fixed”——学习率base_lr保持不变。 “inv”——学习率变化公式为base_lr * (1 + gamma * iter) ^ (- power) “exp”——学习率变化公式为base_lr * gamma ^ iter} “poly”——学习率以多项式形式衰减,到最大迭代次数时降为0。学习率变化公式为base_lr * (1 - iter/max_iter) ^ (power)。 “sigmoid”——学习率以S型曲线形式衰减,学习率变化公式为base_lr * (1 / (1 + exp(-gamma * (iter - stepsize))))
  • gamma 这个参数表示学习率每次的变化程度,值为实数。
  • stepsize 这个参数表示什么时候应该进行训练的下一过程,值为正整数。主要用在lr_policystep的情况。
  • stepvalue 这个参数表示什么时候应该进行训练的下一过程,值为正整数。主要用在lr_policymultistep的情况。
  • max_iter 这个参数表示训练神经网络迭代的最大次数,值为正整数。
  • momentum 这个参数表示在新的计算中要保留的前面的权重数量,值为真分数,通常设为0.9。
  • weight_decay 这个参数表示对较大权重的惩罚(正则化)因子。值为真分数。 This parameter indicates the factor of (regularization) penalization of large weights. This value is a often a real fraction.
  • solver_mode 这个参数用来表示求解神经网络的模式——值为CPU or GPU。
  • snapshot 这个参数用来表示每迭代多少次就应该保存snapshot的modelsolverstate,值为正整数。
  • snapshot_prefix: 这个参数用来表示保存snapshot时modelsolverstate的前缀,值为带引号的字符串。
  • net: 这个参数表示训练网络所在的位置,值为带引号的字符串。
  • test_iter 这个参数表示 这个参数表示每个test_interval进行多少次test迭代,值为正整数。
  • test_interval 这个参数表示什么时候进行数据的测试,值为正整数。
  • display 这个参数用来表示什么时候将输出结果打印到屏幕上,值为正整数,表示迭代次数。
  • type 这个参数表示训练神经网络采用的反向传播算法,值为带引号的字符串。可选的值有: Stochastic Gradient Descent “SGD”——随机梯度下降,默认值。 AdaDelta “AdaDelta”——一种”鲁棒的学习率方法“,是基于梯度的优化方法。 Adaptive Gradient “AdaGrad”——自适应梯度方法。 Adam “Adam”——一种基于梯度的优化方法。 Nesterov’s Accelerated Gradient “Nesterov”——Nesterov的加速梯度法,作为凸优化中最理想的方法,其收敛速度非常快。 RMSprop “RMSProp”——一种基于梯度的优化方法。

2. Demo

  • lr_policy
代码语言:javascript
复制
# lr_policy为multisetp
base_lr: 0.01
momentum: 0.9
lr_policy: "multistep"
gamma: 0.9
stepvalue: 1000
stepvalue: 2000
stepvalue: 3000
stepvalue: 4000
stepvalue: 5000

# lr_policy为step
base_lr: 0.01
momentum: 0.9
lr_policy: "step"
gamma: 0.9
stepsize: 1000
  • solver.prototxt
代码语言:javascript
复制
net: "models/bvlc_alexnet/train_val.prototxt"
# 每次测试时进行1000次迭代
test_iter: 1000
# 每进行1000次训练执行一次测试
test_interval: 1000
base_lr: 0.01
lr_policy: "step"
gamma: 0.1
stepsize: 100000
display: 20
max_iter: 450000
momentum: 0.9
weight_decay: 0.0005
snapshot: 10000
snapshot_prefix: "models/bvlc_alexnet/caffe_alexnet_train"
solver_mode: GPU
本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2017年03月01日,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1. Parameters
  • 2. Demo
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档