Breno

Self-attention studied and not understood

Confesso que estudei pelo vídeo do Karpathy sobre self-attention e não entendi. Já li o paper anos atrás e não entendi. Tutoriais já considerados e não entendi. Sabe, aqueles famosos? Eu não os entendi. Realizei agora uma sessão de quase uma hora e não entendi. Discuti com o Claude, pedi exemplos e não entendi.

So, o post seria sobre isso. My son will know that if he reads here. Eu não entendi. It was a failure. That is great.

Sure, compreendo melhor o contexto. Compreendo o que está envolvido, como se dá a estrutura dos pesos em termos da agregação entre o token e os tokens passados.

Consigo mesmo de cabeça implementar o single head com self-attention. Sei explicar o papel do query e o papel do key, mas não entendi.

That is true. And truly special.

Really great learning.