一个思路：向前是乘以W矩阵，那么反过来就是乘以WT，所以同理在计算梯度时候就是后面的值乘以WT。所以每一层的损失就是后一层（的式子（一串相减的式子））乘以WT ？（梯度下降就是连带着激活函数和原有式子求导）（或者类似这种方法计算，因为损失是l1是相减，l2只是相减平方）

证明过程