两个要点,梯度下降法(Gradient Descent)和链式法则(Chain Rule)。目标是最小化损失函数,一轮一轮更新参数。通过拆解,更新参数分为2个部分,前向和后向传播过程,后向主要是因为输出层是确认的,一层一层往回计算。