Breno

A geometria dos embeddings sob modos de aprendizado distintos

Quando o Karpathy implementou a MLP do paper do Bengio, ele decidiu uma estrutura simples.

Um embedding table de 27 caracteres, para uma hidden layer, e o resultado. Assim, embeddings de caracteres aprendidos.

A pergunta de pesquisa aqui seria então a seguinte.

Como as representações surgem? Esses embeddings de caracteres se organizam no espaço. A hidden layer cria features combinatórias.

Comparemos então agora os embeddings sob outros modos distintos de aprendizado.

Quais modos distintos de aprendizado?

Bom, na implementação do Karpathy, seguindo o paper, foi utilizado o modo mais comum, o backpropagation.

Existem outros modos de aprendizado. Testaremos esses outros modos para responder à seguinte pergunta.

Os embeddings convergem para a mesma geometria?

Seria interessante então observarmos se esses modos distintos produzem organizações qualitativamente distintas do espaço de representação.