Breno

Os resultados com a diminuição dos pesos

Considerando que foram consideradas as duas primeiras estratégias discutidas pelo Karpathy sobre correções no contexto dos pesos dos neurônios da rede neural, o que se observa?

No exemplo considerado de predição do próximo caractere, se observa uma diminuição pequena na função de perda para os dados de validação. Considerando a diminuição dos pesos para o W2 e zerando o b2, o primeiro valor da função de perda para o treinamento, cai muito, porque o softmax consegue encontrar valores menores e assim gera uma distribuição mais uniforme. Considerando a diminuição dos pesos de W1, apenas a perda na validação diminui um pouco. Mas, isso foi em um pequeno exemplo. O impacto em si pode ser grande considerando redes neurais grandes.

Really great learning.