A distribuição que se busca para aprendizado das redes neurais

24 May, 2026

So, estudando com o Karpathy. A discussão sobre o fix para a função de ativação tanh foi sobre manter a distribuição sem os valores extremos de -1 e 1 da tanh. E isso se obtém corrigindo a distribuição dos dados que a função recebe, the preactivation values. E o Karpathy mostra o gráfico e indica que está muito largo, no sentido dos valores que podem ser assumidos. Like, um extremo de -15 e outro extremo de 15. Ele então pergunta como se pode consertar isso.

A resposta se dá de forma simples e intuitiva inicially. As preactivations se obtém com a multiplicação do dado da entrada com os pesos da rede neural. Então, ele mostra que multiplicando por um valor pequeno como 0.1 já levaria a valores menos dos pesos e que levaria às preactivation a serem menores e com isso diminui a distribuição, ela não fica tão expanded em termos horizontais e sem valores altos que levariam à saturação da função de ativação da rede neural. Assim, conclui-se esse aspecto.

Depois, começa-se uma discussão sobre como esse impacto se dá mais quando as redes neurais são grandes e como não se pode então negligenciar esse aspecto, principalmente para a inicialização da rede neural. So, como se define esse valor para multiplicar pelos pesos? E se tem uma primeira sugestão. Just dividir o W pelo fan_in elevado 0.5 que seria a divisão pela raiz quadrada do fan_in, que seria simplesmente o número de neurônios da rede neural. Assim já se chegou a um método para a resolução.

Really great learning.