在RNN的后向传递的以下实现中,通过在每个时间步长添加计算的梯度来计算Wh、Wx和b的梯度。直观地说,这是做什么的,为什么它们不能被平均? def rnn_backward(dh, cache): Compute the backward pass for a vanilla RNN over an entire sequence of data. - dh: Upstream gradients of all hidden states, of shape (N, T, H)
Returns a tup