我读过关于剪裁梯度的概念的研究论文,以阻止它消失或爆炸,但我很难找到一种方法,首先看到梯度,以及发生了什么问题,然后如何以最合适的值剪裁它。
我保存了所有50个时代的检查点模型。我试着用5的梯度剪裁,基于一篇关于LSTMs中梯度剪裁的研究论文,它没有改变任何东西。我不需要预算来通过实验找到最优值,但如果这是唯一的方法,我会让它工作。~h_h_d,e_e_h_d_d,e_(E_H)~h_( e )_ n,t,t,dtthan,t_(H),t_h_(T),t_(E),t_(T),t_(E),t_(T),t_(