Breno

Sobre a distribuição característica para redes neurais

So, considering the Karpathy studies. Compreensão importante do seguinte, e tem um contexto importante de compreensão. Implementamos o micrograd para saber os mecanismos de aprendizado das redes neurais. E as etapas que compõem esse aprendizado. Agora o Karpathy discute sobre a inicialização da rede. Ou seja, como ela pode aprender melhor com a inicialização adequada dos pesos. O Karpathy fala que isso perdeu mais importância com inovações modernas que serão discutidas, mas a inicialização tem importância.

A distribuição dos pesos possui importância no treinamento. O que se quer seria uma distribuição que mantivesse uma variância próxima em termos de x e de y, onde y depende de x.

Karpathy diz que se busca uma distribuição sem valores muito grandes nos extremos, sem ser tão expandida porque isso afeta os valores que se obtêm de activations, que caem em regiões flat, horizontais, onde zera o gradiente com a derivada e isso leva à não haver aprendizado.

Really great learning.