diff --git a/chapter_recurrent-modern/gru.md b/chapter_recurrent-modern/gru.md index 46ab4bd16..93c46afc9 100644 --- a/chapter_recurrent-modern/gru.md +++ b/chapter_recurrent-modern/gru.md @@ -71,6 +71,7 @@ $\mathbf{H}_{t-1} \in \mathbb{R}^{n \times h}$ 那么,重置门$\mathbf{R}_t \in \mathbb{R}^{n \times h}$和 更新门$\mathbf{Z}_t \in \mathbb{R}^{n \times h}$的计算如下所示: + $$ \begin{aligned} \mathbf{R}_t = \sigma(\mathbf{X}_t \mathbf{W}_{xr} + \mathbf{H}_{t-1} \mathbf{W}_{hr} + \mathbf{b}_r),\\ diff --git a/chapter_recurrent-neural-networks/rnn-scratch.md b/chapter_recurrent-neural-networks/rnn-scratch.md index 5d6da152b..8650ebb6d 100644 --- a/chapter_recurrent-neural-networks/rnn-scratch.md +++ b/chapter_recurrent-neural-networks/rnn-scratch.md @@ -537,7 +537,7 @@ predict_ch8('time traveller ', 10, net, vocab) ## [**梯度裁剪**] 对于长度为$T$的序列,我们在迭代中计算这$T$个时间步上的梯度, -将会在反向传播过程中产生长度为$\mathcal{O}(T)$的矩阵乘法链。 +将会在反向传播过程中产生长度为$O(T)$的矩阵乘法链。 如 :numref:`sec_numerical_stability`所述, 当$T$较大时,它可能导致数值不稳定, 例如可能导致梯度爆炸或梯度消失。