Aprendizado de máquinas e a estrutura dos períodos sensíveis
O problema da sample efficiency.
Existe um consenso entre pesquisadores proeminentes de aprendizado de máquina: os modelos atuais aprendem de modo fundamentalmente diferente dos seres humanos. A diferença mais evidente reside na sample efficiency, a quantidade de dados necessária para que o aprendizado ocorra.
Uma criança aprende o conceito de "céu" após algumas experiências. Um modelo de visão computacional requer milhões de imagens rotuladas. Ilya Sutskever e Yann LeCun convergem nesse diagnóstico, embora divirjam quanto à explicação e à solução.
Para Sutskever, o aprendizado em grande escala por predição de próximo token já revela uma forma genuína de compreensão. O modelo, ao predizer tokens, necessariamente captura estruturas profundas do mundo — caso contrário, não conseguiria predizer bem. A baixa sample efficiency seria uma limitação prática, não uma falha arquitetural fundamental.
LeCun discorda. Em suas críticas recentes às LLMs, ele argumenta que predizer o próximo token não equivale a compreender. Um modelo verdadeiramente inteligente deveria representar relações entre suas predições e cenários possíveis — deveria possuir o que ele chama de world model. A sample efficiency humana derivaria precisamente dessa capacidade de construir modelos internos do mundo, não de processar mais dados.
Karpathy, por sua vez, sugere que talvez estejamos diante de um tipo diferente de aprendizado, nem superior nem inferior, apenas distinto.
O que Montessori observou.
Maria Montessori dedicou décadas a observar como crianças aprendem. Uma de suas descobertas centrais foi a existência de períodos sensíveis — janelas temporais em que a criança demonstra interesse intenso e capacidade ampliada para adquirir determinadas habilidades.
O que torna essa observação relevante para o debate atual é o encadeamento desses períodos. Montessori notou que cada fase prepara a seguinte. A criança pequena atravessa um período de desenvolvimento sensorial intenso: ela quer tocar, cheirar, ouvir, discriminar texturas e cores. Essa não é uma fase isolada — é uma preparação.
Em Autoeducação no Ensino Fundamental, Montessori descreve o que acontece depois. As crianças que construíram essa base multissensorial desenvolvem, nos anos seguintes, um interesse profundo pela linguagem, especificamente pela gramática. Elas querem compreender como o discurso se estrutura, como as palavras se combinam para formar significados. Esse interesse não surge do nada; ele emerge porque houve preparação anterior.
A hipótese da preparação suprimida.
Consideremos agora os modelos de linguagem. Eles começam diretamente pela linguagem. Não há fase sensorial prévia, não há construção de base multissensorial, não há preparação anterior. O modelo recebe texto e aprende a predizer texto.
Isso constitui o que poderíamos chamar de preparação omitida em relação ao desenvolvimento humano. A criança constrói primeiro uma representação rica do mundo através dos sentidos e depois se volta para a linguagem como sistema de representação desse mundo já conhecido. O modelo de linguagem recebe apenas o sistema de representação, sem acesso ao mundo que esse sistema representa.
A questão central então se reformula: a baixa sample efficiency dos modelos deriva da ausência de uma preparação anterior equivalente à fase sensorial humana?
Disentanglement como chave interpretativa.
Há um conceito em aprendizado de máquina que pode iluminar essa discussão: disentanglement — a capacidade de separar fatores de variação independentes em representações distintas.
Uma criança que passou pelo período sensorial desenvolveu representações disentangled do mundo. Ela sabe que um objeto pode variar em cor sem variar em forma, que pode variar em textura sem variar em tamanho. Quando essa criança encontra a linguagem, ela já possui uma estrutura conceitual rica sobre a qual mapear as palavras.
O modelo de linguagem precisa inferir essa estrutura exclusivamente a partir de co-ocorrências estatísticas de tokens. Ele precisa descobrir, apenas pelo texto, que "vermelho" e "azul" pertencem a uma categoria (cor) distinta da categoria à qual pertencem "grande" e "pequeno" (tamanho). Isso é possível — os modelos demonstram capacidade impressionante de capturar tais estruturas — mas requer vastamente mais dados.
Conclusão provisória.
A observação de Montessori sobre o encadeamento dos períodos sensíveis sugere uma hipótese para a diferença de sample efficiency: o aprendizado humano não começa pela linguagem, mas chega a ela após uma preparação que constrói as estruturas conceituais básicas. Os modelos de linguagem operam com um currículo que omite essa preparação.
Isso não significa que os modelos não aprendam de modo genuíno — Sutskever pode estar correto ao afirmar que a predição de próximo token captura estruturas reais. Significa que eles precisam reconstruir, a partir apenas da linguagem, o que a criança construiu através da experiência sensorial direta com o mundo.
A pergunta que permanece: seria possível — ou mesmo desejável — criar para as máquinas uma forma de "período sensorial" artificial que servisse de preparação para o aprendizado linguístico? Ou a sample efficiency humana depende de algo mais fundamental — o fato de que crianças, diferentemente de máquinas, vivem no mundo que a linguagem descreve?