Self-attention studied and not understood
Confesso que estudei pelo vídeo do Karpathy sobre self-attention e não entendi. Já li o paper anos atrás e não entendi. Tutoriais já considerados e não entendi. Sabe, aqueles famosos? Eu não os entendi. Realizei agora uma sessão de quase uma hora e não entendi. Discuti com o Claude, pedi exemplos e não entendi.
So, o post seria sobre isso. My son will know that if he reads here. Eu não entendi. It was a failure. That is great.
Sure, compreendo melhor o contexto. Compreendo o que está envolvido, como se dá a estrutura dos pesos em termos da agregação entre o token e os tokens passados.
Consigo mesmo de cabeça implementar o single head com self-attention. Sei explicar o papel do query e o papel do key, mas não entendi.
That is true. And truly special.
Really great learning.