a16z: Por que a era da IA necessita de modelos grandes para aprendizagem contínua

Autor: Malika Aubakirova, Matt Bornstein;Fonte: a16z;Tradução: Shaw, Jinse Caijing

No filme de Christopher Nolan, “Memento”, Leonard Shelby vive num presente fragmentado. Após sofrer uma lesão cerebral traumática, ele desenvolve amnésia anterógrada, incapaz de formar novas memórias. A cada poucos minutos, seu mundo se reinicia, deixando-o preso num momento eterno, desconectado de tudo o que acabou de acontecer, sem conseguir prever o que virá a seguir. Para sobreviver, ele tatua pistas no corpo, tira fotos instantâneas, usando esses objetos externos para lembrar informações que seu cérebro não consegue reter.

Modelos de linguagem de grande escala (LLMs) também vivem num presente eterno semelhante. Eles adquirem uma quantidade massiva de conhecimento durante o treinamento, que fica固ificado nos seus parâmetros, mas não conseguem formar novas memórias — ou seja, não podem atualizar seus parâmetros com base em experiências recentes. Para compensar essa limitação, criamos diversos frameworks auxiliares: tratar o histórico de diálogo como notas de curto prazo, usar sistemas de recuperação como cadernos externos, e incorporar instruções de sistema como tatuagens orientadoras. Mas o próprio modelo nunca internaliza verdadeiramente as novas informações.

Cada vez mais pesquisadores acreditam que isso é insuficiente. O aprendizado por contexto (ICL) é suficiente para perguntas cuja resposta ou fragmento de resposta já existe em algum lugar do mundo. Mas, para questões que exigem descobertas verdadeiramente originais (como novos problemas matemáticos), cenários adversariais (como segurança cibernética), ou conhecimentos tácitos difíceis de expressar em palavras, há razões sólidas para afirmar: o modelo precisa de uma capacidade que, após a implantação, permita atualizar diretamente seus conhecimentos e experiências nos seus parâmetros.

O aprendizado por contexto é efêmero. O verdadeiro aprendizado requer compressão de informações. Se não conseguirmos fazer o modelo aprender continuamente de forma compressiva, podemos ficar eternamente presos num presente como em “Memória” — um ciclo de fragmentos. Por outro lado, se conseguirmos ensinar o modelo a construir sua própria arquitetura de memória, ao invés de depender de ferramentas externas específicas, talvez possamos abrir uma nova dimensão de escalabilidade e atualização contínua.

Esse campo de pesquisa é conhecido como aprendizado contínuo. Embora o conceito não seja novo (remontando a estudos de McCloskey e Cohen em 1989), acreditamos que seja uma das direções mais importantes na IA atual. Nos últimos dois ou três anos, as capacidades dos modelos cresceram de forma surpreendente, e a lacuna entre o “conhecido” e o “possível de saber” tornou-se cada vez mais evidente. Portanto, este artigo busca compartilhar insights obtidos de diálogos com os principais pesquisadores da área, esclarecer diferentes abordagens tecnológicas para o aprendizado contínuo, e impulsionar o desenvolvimento dessa temática no ecossistema empreendedor.

Vamos falar primeiro sobre o contexto

Antes de discutir o aprendizado parametrizado (ou seja, o aprendizado que ocorre através da atualização dos pesos do modelo), é preciso reconhecer: o aprendizado por contexto realmente funciona, e há motivos sólidos para acreditar que continuará sendo uma vantagem.

Transformers, na essência, são modelos de previsão do próximo token condicionados a uma sequência. Desde que a entrada seja uma sequência adequada, eles podem exibir comportamentos surpreendentemente ricos, sem alterar seus pesos. Essa é a razão pela qual técnicas como gerenciamento de contexto, engenharia de prompts, ajuste fino por instruções e aprendizado com poucos exemplos são tão poderosas. A inteligência está nos parâmetros estáticos, enquanto a performance do modelo pode variar drasticamente com o conteúdo da janela de entrada.

A análise recente do Cursor sobre a escalabilidade de agentes autônomos ilustra bem isso: “O desempenho de um sistema depende fundamentalmente de como projetamos seus prompts. Estruturas e modelos são importantes, mas os prompts são ainda mais críticos.”

Os pesos do modelo são fixos. O que realmente faz o sistema funcionar é uma orquestração refinada do contexto: quais informações incluir, quando fazer resumos, como manter coerência ao longo de horas de operação autônoma.

O OpenClaw é outro exemplo excelente. Sua vantagem não vem de permissões especiais no modelo (que é acessível a todos na sua base), mas de sua capacidade de transformar contexto e ferramentas em um estado operacional eficiente: rastreando suas ações, estruturando resultados intermediários, decidindo quais conteúdos precisam ser reinseridos nos prompts, e mantendo memória persistente do trabalho passado. OpenClaw elevou o design de frameworks de agentes a uma técnica especializada.

Quando os prompts surgiram, muitos pesquisadores duvidaram se “apenas prompts” poderiam se tornar uma forma de interação formal, parecendo uma técnica de atalho. Mas essa abordagem é naturalmente compatível com a arquitetura Transformer, não requer re-treinamento, e pode escalar automaticamente com melhorias no desempenho do modelo. Assim, quanto mais poderoso o modelo, melhor será o efeito do prompt. “Simples, porém nativo” muitas vezes vence, pois colabora diretamente com o sistema de baixo nível, ao invés de enfrentá-lo. E, até agora, essa tem sido a trajetória no campo de grandes modelos de linguagem.

Modelos de espaço de estado: uma capacidade de contexto superpoderosa

À medida que o fluxo de trabalho principal migra de chamadas diretas a grandes modelos para ciclos de agentes inteligentes, a pressão pelo aprendizado por contexto aumenta. Antes, era raro que o contexto fosse completamente consumido — geralmente só acontecia ao executar uma longa cadeia de tarefas independentes, e a camada de aplicação podia facilmente reduzir ou comprimir o histórico de diálogo. Mas, em cenários de agentes, uma única tarefa pode consumir uma grande parte do espaço de contexto disponível. Cada passo do ciclo do agente depende do contexto passado, e após 20 a 100 passos, a coerência tende a se perder — o contexto se esgota, a lógica se desintegra, e o sistema não converge mais.

Por isso, os principais laboratórios de IA estão investindo pesado (em treinamentos em larga escala) no desenvolvimento de modelos com janelas de contexto extremamente grandes. Essa é uma abordagem natural, pois se baseia em uma técnica comprovada de aprendizado por contexto, alinhada à tendência de transformar poder de raciocínio em capacidade computacional. A arquitetura mais comum combina camadas de memória fixa com cabeças de atenção padrão, formando modelos de espaço de estado (SSM) e variantes lineares de atenção (que chamaremos genericamente de SSM). Para lidar com longas sequências, a extensão do SSM supera fundamentalmente os mecanismos tradicionais de atenção.

O objetivo é ajudar o agente a manter coerência lógica ao longo de ciclos mais longos, aumentando o número de passos eficazes de cerca de 20 para aproximadamente 20.000, sem perder as habilidades e conhecimentos amplos que um Transformer tradicional possui. Se essa abordagem for bem-sucedida, representará um avanço significativo para agentes de longa duração. Pode-se até pensar nisso como uma forma de aprendizado contínuo: embora sem atualizar pesos, há uma camada de memória externa quase que irreversível.

Portanto, esses métodos não-paramétricos existem de fato e apresentam resultados promissores. Qualquer avaliação de aprendizado contínuo deve começar por aqui. A questão não é se os sistemas baseados em contexto são eficazes — eles são. Mas se já atingimos um limite, e se novas abordagens podem nos levar além.

As limitações do contexto: o erro do arquivo

“A situação de AGI e de pré-treinamento é, em certo sentido, que eles superaram as metas… Os humanos não são AGI. Certamente, temos um sistema de habilidades básicas, mas carecemos de conhecimento massivo. Em contrapartida, dependemos do aprendizado contínuo. Se eu criar um adolescente superinteligente de 15 anos, ele na verdade sabe muito pouco. É um bom estudante, cheio de sede de aprender. Você pode dizer a ele: ‘Seja programador, seja médico.’ A implantação de um modelo exige um processo de aprendizado e tentativa e erro. É um processo gradual, não uma entrega de produto acabado.” — Ilya Sutskever

Imagine um sistema com armazenamento infinito: o maior arquivo do mundo, onde cada fato está perfeitamente indexado, pronto para ser recuperado instantaneamente. Pode consultar qualquer informação. Mas, ele aprendeu?

Não. Nunca foi solicitado a fazer compressão de informações.

Este é o ponto central da nossa argumentação, inspirado na visão de Ilya Sutskever: o núcleo dos grandes modelos de linguagem é um algoritmo de compressão. Durante o treinamento, eles comprimem a internet nos seus parâmetros. Essa compressão é imperfeita, e justamente por isso é poderosa. A compressão força o modelo a descobrir estruturas, realizar generalizações, e construir representações que possam transferir-se entre contextos. Modelos que apenas memorizam exemplos de treinamento são muito inferiores aos que conseguem extrair regras subjacentes. A compressão com perdas é, na prática, aprendizado.

O paradoxo é que: justamente esse mecanismo que torna os grandes modelos de linguagem poderosos — transformar dados brutos em representações compactas e transferíveis — é aquilo que deixamos de usar após a implantação. Paramos de comprimir na hora de lançar o modelo, substituindo por memória externa. Claro, muitos frameworks de agentes fazem alguma compressão de contexto de forma customizada. Mas, olhando para as “lições dolorosas”, não deveríamos fazer o modelo aprender essa compressão de forma direta e em larga escala?

Yu Sun ilustra essa discussão com um exemplo matemático: o teorema de Fermat, que resistiu por mais de 350 anos sem uma prova — não por falta de literatura, mas por sua solução altamente inovadora. A lacuna entre o conhecimento matemático existente e a resposta final era imensa. Em 1990, Andrew Wiles, após quase sete anos de pesquisa isolada, criou uma nova abordagem poderosa para provar o teorema, construindo uma ponte entre duas grandes áreas: curvas elípticas e formas modulares. Apesar de Ken Ribet já ter mostrado que provar essa conexão resolveria o problema, ninguém antes de Wiles tinha as ferramentas teóricas para construir essa ponte. O mesmo vale para a prova do Teorema de Poincaré por Grigori Perelman.

A questão central é: esses exemplos demonstram que os grandes modelos de linguagem estão faltando uma capacidade — uma habilidade de atualizar suas crenças a priori, de pensar de forma criativa? Ou esses exemplos apenas confirmam que tudo o que o ser humano sabe é, na verdade, dados que podem ser treinados e recombinados, e que as realizações de Wiles e Perelman são apenas uma consequência de que os modelos podem, em maior escala, alcançar resultados semelhantes?

Essa é uma questão que ainda precisa de evidências concretas. Mas já sabemos que há muitos problemas que o aprendizado por contexto não consegue resolver, enquanto o aprendizado parametrizado pode ser a solução, como por exemplo:

[Lista de exemplos omitida por limitação de espaço, mas no texto original há exemplos de conceitos complexos, conhecimentos tácitos, habilidades específicas, etc.]

Além disso, o aprendizado por contexto só consegue lidar com o que pode ser expresso em linguagem. Os pesos do modelo, por sua vez, podem codificar conceitos que não podem ser transmitidos por prompts ou palavras. Alguns padrões de alta dimensionalidade, altamente tácitos ou estruturalmente profundos, simplesmente não cabem na janela de contexto. Por exemplo: texturas visuais que distinguem tumores benignos de malignos em imagens médicas, ou microvariações de ritmo na fala que definem um locutor. Essas informações são difíceis de serem descritas com precisão em palavras — elas só existem nos pesos. Elas residem no espaço latente das representações, não na linguagem. Assim, por mais que ampliemos a janela de contexto, sempre haverá conhecimentos que só podem estar nos parâmetros.

Isso talvez explique por que funções como “memória” do ChatGPT — que parecem simples “lembretes” — muitas vezes causam desconforto ao usuário, ao invés de surpresa. O que o usuário deseja não é uma mera recordação, mas uma capacidade. Um modelo que internalize seu padrão de comportamento pode generalizar para novos cenários; um que apenas recupere registros passados não consegue. A diferença entre “esta é sua resposta anterior a este email” (repetição exata) e “eu entendo seu raciocínio e posso prever o que você precisa” — essa é a essência da distinção entre recuperação e aprendizado.

Introdução ao aprendizado contínuo

Existem várias abordagens para o aprendizado contínuo, e a principal distinção não está na presença ou ausência de memória, mas sim: onde ocorre a compressão. Essas abordagens podem ser vistas como um espectro contínuo:

  • Sem compressão (recuperação pura, pesos congelados)

  • Compressão total interna (aprendizado nos pesos, o modelo realmente fica mais inteligente)

  • Uma abordagem intermediária importante: modularidade

Contexto

Na vertente do contexto, equipes desenvolvem sistemas de recuperação mais inteligentes, frameworks de agentes e sistemas de engenharia de prompts. Essa é a direção mais madura atualmente: infraestrutura validada, processos de implantação bem definidos. Sua limitação está na profundidade, ou seja, no tamanho da janela de contexto.

Uma direção emergente interessante é a arquitetura de múltiplos agentes, que expande o conceito de contexto. Se um único modelo é limitado a uma janela de 128K tokens, um grupo de agentes cooperativos — cada um com seu próprio contexto, especializado em uma parte do problema, comunicando resultados — pode, em conjunto, simular uma memória de escala praticamente ilimitada. Cada agente processa seu próprio contexto, e o sistema agrega os resultados. Pesquisas recentes de Karpathy e exemplos como o navegador web do Cursor ilustram essa prática inicial. Essa é uma abordagem puramente não-paramétrica (sem alterar pesos), que aumenta significativamente o limite de capacidade de sistemas baseados em contexto.

Modularidade

Na direção modular, equipes constroem componentes de conhecimento plugáveis (caches de chaves-valor comprimidas, adaptadores, repositórios externos), permitindo que modelos genéricos adquiram habilidades específicas sem re-treinamento. Um modelo de 8 bilhões de parâmetros, com módulos adequados, pode alcançar o desempenho de um modelo de 109 bilhões, usando muito menos memória. Essa abordagem é atraente por sua compatibilidade com arquiteturas Transformer existentes, podendo ser facilmente integrada ou substituída.

Atualização de pesos

Na direção de atualização de pesos, pesquisadores exploram o verdadeiro aprendizado parametrizado, como camadas de memória esparsas que atualizam apenas partes relevantes, ciclos de reforço com feedback contínuo, ou treinamento de compressão de contexto em pesos durante a inferência. Essas são as abordagens mais profundas, mais difíceis de implementar, mas que permitem que o modelo internalize novas informações ou habilidades de forma completa.

Diversas técnicas de atualização de pesos estão em desenvolvimento, entre elas:

[Lista de exemplos omitida por limitação de espaço, mas no texto original há métodos como regularização, interpolação de pesos, treinamento durante a inferência, meta-aprendizado, auto-distilação, auto-evolução, etc.]

No campo de regularização e espaço de pesos, há várias linhas de pesquisa paralelas: congelamento regularizado (evitar mudanças em pesos importantes), interpolação de pesos (mistura de pesos antigos e novos), treinamento durante a inferência (ajuste de pesos com gradiente na fase de teste), e meta-aprendizado (como MAML, ou estruturas de otimização hierárquica inspiradas na memória biológica). A distilação de conhecimento, por sua vez, treina um modelo menor a imitar um maior, preservando o conhecimento antigo. Técnicas como LoRD, auto-distilação e auto-evolução estão em uso para evitar o esquecimento catastrófico, melhorar a adaptação rápida, e evoluir capacidades ao longo do tempo.

Essas linhas de pesquisa estão se fundindo. Métodos como TTT-Discover combinam treinamento durante o teste com exploração por reforço; arquiteturas como HOPE integram ciclos de aprendizagem rápidos e lentos; e abordagens como SDFT transformam a distilação em um ciclo de autoaperfeiçoamento. As fronteiras entre essas estratégias estão se tornando cada vez mais tênues — a próxima geração de sistemas de aprendizado contínuo provavelmente integrará múltiplas técnicas, usando regularização para estabilidade, meta-aprendizado para velocidade, e auto-aperfeiçoamento para crescimento de capacidades. Muitas startups já estão explorando esses conceitos em diferentes camadas.

Ecossistema de startups de aprendizado contínuo

A vertente não-paramétrica é a mais conhecida atualmente. Empresas de frameworks de agentes (Letta, mem0, Subconscious) criam camadas de orquestração e suporte, gerenciando o conteúdo da janela de contexto; infraestruturas de recuperação e geração aprimorada por busca (como Pinecone, xmemory) fornecem suporte de recuperação. Os dados já existem; o desafio é selecionar e fornecer fragmentos de dados relevantes no momento certo. Com janelas de contexto cada vez maiores, o espaço de design dessas empresas também cresce, especialmente na área de frameworks, onde novas startups surgem para gerenciar estratégias cada vez mais complexas.

Na vertente paramétrica, o estágio de desenvolvimento é mais antigo e diversificado. Empresas tentam implementar compressões pós-deploy, para que o modelo internalize novas informações nos seus pesos. Essas abordagens podem ser categorizadas em:

Compressão local: aprendizado sem re-treinamento. Algumas equipes criam módulos de conhecimento plugáveis (caches, adaptadores, memórias externas) que, sem alterar os pesos principais, conferem habilidades específicas ao modelo. A ideia central é alcançar uma compressão significativa de informações, equilibrando estabilidade e plasticidade, sem simplesmente fazer recuperação. Um modelo de 8 bilhões de parâmetros, com módulos adequados, pode rivalizar com modelos muito maiores. Essa abordagem é altamente compatível com arquiteturas Transformer, podendo ser combinada ou atualizada facilmente, com custos de experimentação menores do que re-treinamentos completos.

Aprendizado por reforço e ciclos de feedback. Outros acreditam que o melhor sinal de aprendizado está na interação real: correções de usuários, sucesso ou fracasso de tarefas, recompensas do ambiente. A ideia é que o modelo trate cada interação como um potencial sinal de treinamento, internalizando experiências valiosas. O desafio é transformar feedback esparso, ruidoso e potencialmente adversarial em atualizações de peso estáveis, evitando o esquecimento. Se o modelo puder aprender continuamente a partir do deployment, seu valor se acumulará ao longo do tempo — algo que sistemas puramente baseados em contexto não podem fazer.

Dados de alta qualidade como fonte de aprendizado. Uma abordagem relacionada é a centralização de dados de alta qualidade, gerados ou selecionados para treinar continuamente o modelo. Se o sistema puder obter sinais de alta qualidade, estruturados, pode aprender com menos passos de gradiente, acelerando a evolução do conhecimento. Essa estratégia complementa o ciclo de feedback, focando na qualidade do conteúdo de treinamento.

Novas arquiteturas para aprendizado contínuo. Algumas propostas mais radicais defendem que o próprio Transformer é uma limitação, e que o aprendizado contínuo requer unidades de computação com dinâmica temporal contínua e memória embutida. Essas arquiteturas estruturais visam criar sistemas que possam aprender de forma contínua, sem depender de pesos fixos.

Grandes laboratórios de IA estão explorando essas direções. Algumas focam em melhorar o gerenciamento de contexto e raciocínio, outras em memória externa ou computação offline (como “treinamento durante o sono”). Ainda há startups desenvolvendo arquiteturas totalmente novas. Ainda estamos na fase inicial, sem uma solução definitiva, e é improvável que uma única abordagem domine o futuro — a diversidade de aplicações exige múltiplas estratégias.

Por que não é viável atualizar pesos diretamente

Atualizar os pesos do modelo em produção gera uma série de problemas em cascata, que ainda não foram resolvidos em larga escala.

Esses problemas são bem documentados: esquecimento catastrófico, que ocorre quando o modelo, ao aprender novas informações, destrói representações antigas; problemas de desacoplamento temporal, onde regras fixas e estados variáveis são comprimidos nos mesmos pesos, e uma mudança prejudica a outra; falhas na propagação de atualizações de fato, que não se refletem em conclusões derivadas; e a impossibilidade de remover conhecimento falso ou prejudicial, pois não há uma operação de subtração diferenciável.

Há também questões menos discutidas: o treinamento e implantação separados são uma conveniência de engenharia, mas também uma fronteira de segurança, auditoria e governança. Quebrar essa fronteira pode levar a problemas de alinhamento imprevisíveis, como comportamentos indesejados mesmo com pequenas microajustes, ou ataques de injeção de prompts maliciosos na fase de atualização. Além disso, a atualização contínua dificulta o controle de versões, testes de regressão e validações de segurança. E, ao incorporar informações sensíveis nos pesos, aumentamos o risco de vazamentos e violações de privacidade.

Esses desafios não indicam impossibilidade, mas representam obstáculos que precisam ser enfrentados na pesquisa de sistemas de aprendizado contínuo robustos, seguros e controláveis.

De “Memória Fragmentada” à memória verdadeira

No filme “Memória”, a tragédia de Leonard não é a incapacidade de viver normalmente: ele é inteligente, perspicaz, até brilhante em cada cena. Sua tragédia é a incapacidade de obter um efeito de crescimento de capacidade — de fazer o efeito de “crescer” com suas experiências. Todas as suas experiências permanecem externas: uma foto instantânea, uma tatuagem, uma nota escrita por alguém. Ele consegue recuperar, mas não consegue comprimir novas memórias.

Ao percorrer seu labirinto, as fronteiras entre verdade e crença se tornam indistintas. Sua condição não apenas rouba suas memórias, mas o força a reconstruir significado continuamente, tornando-se ao mesmo tempo investigador e narrador não confiável de sua própria história.

Hoje, a IA enfrenta uma limitação semelhante. Construímos sistemas de recuperação poderosos: janelas de contexto maiores, frameworks mais inteligentes, múltiplos agentes colaborativos — e eles funcionam! Mas recuperar não é aprender. Um sistema que consulta fatos não foi treinado para descobrir estruturas, nem para generalizar. A capacidade de transformar dados brutos em representações transferíveis — uma compressão imperfeita, que torna o conhecimento útil — foi desligada na implantação.

O caminho do futuro talvez não seja uma única inovação, mas uma arquitetura em camadas. O aprendizado por contexto continuará sendo a primeira linha de defesa: é nativo, comprovado e em contínua evolução. Frameworks modulares podem fazer a ponte para personalização e especialização. Mas, para problemas de descoberta original, adaptação adversarial e conhecimentos tácitos que não cabem em palavras, talvez seja necessário que o modelo continue aprendendo após a implantação, comprimindo experiências em seus pesos. Isso exige avanços em arquiteturas esparsas, meta-aprendizado e ciclos de autoaperfeiçoamento. Talvez também nos force a redefinir o que é um “modelo”: não mais uma coleção fixa de pesos, mas um sistema em evolução, com memória, algoritmos de atualização, e a capacidade de abstrair regras a partir de sua própria experiência.

O arquivo só ficará maior. Mas, por maior que seja, ele continuará sendo apenas um arquivo. A verdadeira inovação está em fazer o modelo continuar fazendo aquilo que o torna poderoso durante o treinamento: comprimir, abstrair, aprender. Estamos na encruzilhada, caminhando do estado de “memória fragmentada” para agentes com uma pitada de percepção de experiência. Caso contrário, ficaremos presos na nossa própria “Memória”.

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar