A geometria dos embeddings sob modos de aprendizado distintos
Quando o Karpathy implementou a MLP do paper do Bengio, ele decidiu uma estrutura simples.
Um embedding table de 27 caracteres, para uma hidden layer, e o resultado. Assim, embeddings de caracteres aprendidos.
A pergunta de pesquisa aqui seria então a seguinte.
Como as representações surgem? Esses embeddings de caracteres se organizam no espaço. A hidden layer cria features combinatórias.
Comparemos então agora os embeddings sob outros modos distintos de aprendizado.
Quais modos distintos de aprendizado?
Bom, na implementação do Karpathy, seguindo o paper, foi utilizado o modo mais comum, o backpropagation.
Existem outros modos de aprendizado. Testaremos esses outros modos para responder à seguinte pergunta.
Os embeddings convergem para a mesma geometria?
Seria interessante então observarmos se esses modos distintos produzem organizações qualitativamente distintas do espaço de representação.