Breno

A normalização de batches para se obter gaussianas

So, really simple and intuitive. Karpathy explanation is really great e tem um chaining de ideias muito interessante.

Toda a discussão dos desafios com a inicialização foram sobre o desejo de manter a distribuição o mais próxima de uma distribuição gaussiana com a média 0 e um desvio padrão 1 ou que se mantivesse similar.

The BatchNormalization method propôs então normalizar as preactivations da hidden layer. Simple that.

Really great learning.