A normalização de batches para se obter gaussianas
So, really simple and intuitive. Karpathy explanation is really great e tem um chaining de ideias muito interessante.
Toda a discussão dos desafios com a inicialização foram sobre o desejo de manter a distribuição o mais próxima de uma distribuição gaussiana com a média 0 e um desvio padrão 1 ou que se mantivesse similar.
The BatchNormalization method propôs então normalizar as preactivations da hidden layer. Simple that.
Really great learning.