Resultado da função de perda
Considere-se uma rede neural. Simples. A que o Karpathy considera na discussão de activations and gradients. Apenas duas camadas. Então, dois conjuntos de pesos, W1 e W2. E tem os bias, b1 e b2. O treino se dá considerando uma função de perda para a tarefa de predição do próximo caractere.
Tem os desafios do treino, como a inicialização para o fix da perda inicial grande. E então o Karpathy mostra o estudo dos pesos e como a diminuição do W2 ajuda na obtenção de logits pequenos que então irão passar pelo softmax, que vai gerar uma distribuição mais uniforme no início, que não se tem ainda muito aprendizado da tarefa, apenas se observou alguns casos do batch.
Mas, então, o que seria a função de perda? Quando se olha para o resultado da função de perda por iteração, se tem ali uma média dos valores obtidos. Mas, para cada exemplo do batch, se tem um resultado da função de perda. Então, quando se estuda o aprendizado, se busca compreender como está o aprendizado.
Para a compreensão da saturação da rede, se olha os exemplos, o resultado da função de perda para cada caso. Então, o Karpathy considera os exemplos do batch e considera um gráfico onde cada linha seria de um exemplo e cada coluna seria um dos neurônios da camada. Então pode-se perceber se o neurônio teve um aprendizado ou se ele não está com aprendizado observando em geral o comportamento do neurônios para os exemplos do batch. Então, o resultado da função de perda por iteração informa como está progredindo o aprendizado. E o resultado da função de perda por neurônio, informa se dado neurônio tem conseguido receber o sinal para aprendizado adequado.
Really great learning.