Depois que a IA devora tudo, o que ainda é in treinável?

Título original: The Untrainable
Autor original: Sarah Guo, Conviction
Tradução: Peggy, BlockBeats

Nota do editor: Quando as capacidades de IA continuam a evoluir, uma nova visão pessimista surge no mundo dos investimentos: se os modelos ficarem cada vez mais fortes, todas as empresas de aplicação acabarão sendo engolidas por modelos como Anthropic, OpenAI, Nvidia e pelo poder computacional, deixando no mercado apenas os modelos de ponta, o capacidade de processamento e algumas infraestruturas essenciais. Mas Sarah Guo acredita que essa visão só está parcialmente correta. Aquelas aplicações de “thin wrapper” (camadas superficiais, ou seja, modelos simples de empacotamento) realmente serão absorvidas; tarefas que podem ser medidas por benchmarks, treinadas com dados públicos e validadas a baixo custo também se tornarão commodities.

A verdadeira questão é: após a IA engolir tudo que pode ser treinado, o que ainda permanece não treinável?

A resposta está naquelas formas de valor que existem dentro de organizações reais, que não podem ser facilmente replicadas de fora: dados privados de empresas, fluxos de trabalho complexos, confiança dos usuários, permissões de sistema, julgamentos setoriais, responsabilidades de conformidade e experiências acumuladas ao longo do tempo. Os modelos podem ficar mais inteligentes, mas não podem automaticamente acessar sistemas de produção bancários; podem gerar respostas médicas, mas não conquistam a confiança dos médicos ou os processos decisórios hospitalares; podem redigir textos legais, mas não assumem responsabilidade como advogados experientes, nem definem por si só o que constitui um trabalho jurídico de qualidade.

Portanto, as empresas de IA com uma verdadeira vantagem competitiva no futuro não serão simplesmente mais inteligentes que modelos gerais, mas sim aquelas que mergulharem profundamente em um setor específico, realizando a difícil, porém crucial, tarefa de “tradução”: transformar a realidade privada, as ferramentas, os processos e os critérios de julgamento de um cliente em sistemas que possam agir por meio de modelos, e ao longo do tempo, definir o que constitui um “bom resultado”. Quanto mais forte for a IA, mais ela desvalorizará tarefas mensuráveis e replicáveis; ao mesmo tempo, destacará aquilo que carrega história, relações, permissões e julgamentos profissionais — as “coisas não treináveis”. Essa é a verdadeira riqueza que pode permanecer após a absorção dos modelos.

A seguir, o texto original:

Em meados de 2026, a versão do investidor de “loucura de IA” é uma sensação de desespero de que nada mais vale a pena investir: parece que devemos colocar todo o dinheiro na Anthropic e Nvidia, e depois voltar para casa e dormir. Mas eu nunca tive essa sensação. Desde várias versões menores anteriores, tenho certeza de que os modelos já são mais inteligentes do que eu; se eu comprasse Anthropic e Nvidia pelo preço de mercado, ficaria feliz; meus amigos mais inteligentes também acreditam que a autoaperfeiçoamento dos modelos vai acelerar rapidamente — mas eu ainda não sinto esse desespero.

Esse desespero não é tolo. Sua lógica é a seguinte: se os modelos continuarem a ficar mais fortes em todas as tarefas, todas as empresas baseadas neles serão apenas camadas superficiais esperando serem absorvidas; o valor que restará será apenas poder computacional e os pesos dos modelos de ponta.

No caso de software, esse é o exemplo mais dependente dessa sensação de desespero. Quando lançado em 2024, Devin apresentou um agente capaz de resolver apenas 13% das tarefas em benchmarks padrão de software, sendo então subestimado pelo mercado. Um ano e meio depois, o agente mais avançado já atingia mais de 80% de pontuação e começou a lidar com tarefas reais dentro do Goldman Sachs e do Exército dos EUA. Quase todos chegaram à mesma conclusão errada: os modelos estão engolindo a engenharia de software.

Mas, após engolir a parte mais fácil de medir na engenharia de software, estamos redescobrindo algo que muitas equipes já sabiam: que engenharia sempre resistiu à mensuração, e que as partes mais fáceis de medir nem sempre são as mais importantes.

Mert Demirer, do MIT, e seus colaboradores finalmente quantificaram isso: entre mais de 100 mil desenvolvedores, a última geração de agentes de codificação aumentou a produção de código em cerca de 180%, mas a quantidade de código realmente entregue e colocado em produção aumentou apenas cerca de 30%. Escrever código ficou mais barato, mas as etapas restantes ainda dependem de pessoas, e essas etapas continuam essenciais. Claro, o impacto líquido geral ainda é impressionante.

Benchmarks são algo que você pode medir; e tudo que pode ser medido pode ser usado para treinar. Assim, o agente de codificação foi o primeiro a amadurecer: compiladores são validadores gratuitos, e suítes de testes também. Quando as respostas podem ser verificadas quase sem custo, você pode continuamente aprimorá-las ao redor desse sinal de verificação, até dominá-lo completamente.

Mas, passar em testes nunca garante que uma mudança em um código de dez anos de idade seja correta. Talvez esse módulo exista por três razões não documentadas; a linha de produção pode depender de um cron job que ninguém quer admitir que escreveu.

Essa correção não pode ser lida em rankings, nem mesmo diretamente de qualquer coisa. Você só saberá se ela é eficaz ao deixar o sistema rodar por tempo suficiente no mundo real. E modelos mais inteligentes não aceleram esse processo. Ninguém confia totalmente em um sistema como o Google só porque passou em testes unitários com marca verde. A confiança vem de suportar cargas reais por anos.

Essa correção não é apenas privada, mas uma barreira de proteção que se forma lentamente — uma barreira que o capital não consegue comprimir no tempo. Mesmo os otimistas admitem que esse relógio não pode ser pulado. No recente artigo de Noam Brown, pioneiro em modelos de raciocínio da OpenAI, ele afirma: avaliar o desempenho de um agente ao longo de um ano provavelmente só é possível deixando-o realmente rodar por um ano.

Como disse Gabe Pereyra, a verdadeira automação não é apenas modelos mais fortes. É a mudança conjunta de produto, modelos, fluxos de trabalho e organização da empresa, sendo que três desses elementos avançam na velocidade da organização.

O que realmente motiva as pessoas, e que nenhum benchmark consegue tocar, é algo: convencer um sócio cético a mudar sua forma de lidar com as tarefas, manter uma equipe unida durante uma reconstrução. É por isso que, ao contratar um CEO, valorizamos sua habilidade de lidar com pessoas tanto quanto sua capacidade de análise. Modelos mais inteligentes não mudam esse peso.

O feedback nesse caso é vago, o tempo é medido em anos, e a confiança pertence a uma pessoa específica. Todas as empresas que conheço já fazem seus engenheiros usarem modelos de ponta, mas nenhuma delas mudou sua organização na velocidade do avanço dos modelos. Adotar ferramentas leva um trimestre — um trimestre mágico de crescimento de tokens! — mas uma reconstrução verdadeira leva anos.

O trabalho que pode ser visto claramente está se afastando. O valor real, estrutural, é aquilo que não pode ser lido: tudo que pode estar em rankings pode ser treinado; portanto, tudo que pode ser medido está se tornando uma commodity. Esse processo leva tempo e nunca é totalmente concluído, mas a direção é irreversível.

Como disse meu amigo Matt MacInnis, da Rippling, em termos monetários: um token que serve apenas para responder a uma questão geral vale quase nada, pois qualquer modelo pode responder; mas um token que opera sobre os dados internos da sua empresa vale muito mais, porque faz o que você realmente quer — não apenas gera uma resposta plausível.

O trabalho legível será engolido de duas formas.

De baixo para cima, as tarefas se saturam: uma vez que uma tarefa pode ser verificada a baixo custo, o comprador não se importa qual modelo a executou, só quanto custa. Assim, ela passará a ser feita pelo modelo open source ou pelo modelo de destilação mais barato da semana. Desde que a margem de lucro seja suficiente, ela sempre será feita.

De cima para baixo, os laboratórios tentam fazer os modelos engolirem suas próprias estruturas. Roteamento entre recuperação, chamadas baratas e caras, uso de ferramentas, estratégias de raciocínio — tudo que antes ficava fora do modelo, está sendo incorporado aos pesos do modelo, até que a “casca” se torne o próprio modelo. Essa é a fronteira de absorção.

A pressão por lucros também atua de outra forma: um agente geral precisa estar pronto para qualquer coisa, o que é caro; uma aplicação focada pode otimizar seu fluxo de trabalho ao máximo, consumindo apenas uma pequena fração de tokens. E, ao contrário de laboratórios que vendem tokens, as empresas podem reter a margem intermediária.

Assim, podemos fazer duas perguntas a qualquer tarefa: ela é privada e cara, ou seja, uma verdade que só existe nos dados internos da sua empresa? Ela é isolada em um sistema inacessível a terceiros? Quando combinadas com o grau de saturação da tarefa, essas perguntas formam uma matriz 2×2.

Tarefas saturadas e com respostas públicas são de commodities, dominadas por tokens open source. Tarefas de ponta, mas com respostas públicas, como benchmarks de codificação, são áreas de vitória dos laboratórios, pois, com avaliações gratuitas, possuir o benchmark em si já não vale muito.

A verdadeira recompensa está no último canto, o “não treinável”: tarefas de ponta, cuja correção só existe em ambientes privados. Você pode perceber isso na nuvem de inferência voltada para os pioneiros nativos de IA: a maioria dos tokens é gerada por modelos customizados, não por modelos open source gerais.

A parede que leva a esse último canto tem alturas variadas. Um repositório de código de um desenvolvedor é portátil e padronizado, então não é difícil acessá-lo. Mas o sistema de produção de um banco, por exemplo, não é portátil nem padronizado. Você não consegue ganhar acesso root só porque melhorou 2% na avaliação do SWE-Bench Verified.

Capacidades podem engolir muitas coisas, mas modelos melhores não transformarão padrões privados em padrões públicos. Eles não possuem licença, não assinam por responsabilidades, não detêm os documentos da empresa; quando erram, não podem ser processados. O gargalo não é inteligência, mas permissões e responsabilidades. Você pode imaginar um modelo muito mais inteligente que qualquer pessoa, mas ele ainda precisa de permissão para entrar, e alguém precisa assinar por suas ações.

Essa porta tem uma fechadura e um ferrolho.

A fechadura é o ambiente: só após obter confiança dentro de um sistema, passar por uma revisão de segurança, integrar-se e assinar contratos de responsabilidade pelos resultados, você pode verificar se a IA realmente fez algo útil.

O ferrolho é o usuário. Hoje, a maioria dos médicos nos EUA abre o OpenEvidence todos os dias — algo que nenhum poder computacional pode comprar. Um laboratório pode treinar amanhã um modelo médico perfeito, mas ele ainda não consegue entrar na rotina dos médicos ou nos processos de decisão da UCSF. A confiança é construída lentamente, por relações e pelo consentimento do usuário, não por descida de gradiente que apaga esses fatores.

Essa é a tarefa das empresas de aplicação. Para que um produto ocupe um espaço no “não treinável”, ele depende de trabalhos pouco glamorosos: organizar a realidade privada de uma empresa, para que o modelo possa agir com base nela; fornecer ferramentas de ação ao modelo; e, junto ao cliente, transformar a operação de sua força de trabalho.

Uma empresa capaz de fazer essa “tradução” difícil é difícil de copiar, e essa tradução nunca termina. A integração e a manutenção continuam ao longo do relacionamento com o cliente. Quem ganha essa batalha são as equipes que colocam engenheiros especializados e ferramentas ao lado do cliente.

Por exemplo, em um grande escritório de advocacia tradicional, quase mil transações de fusões e aquisições por ano. Você não pode fazer com que centenas de assistentes jurídicos baixem os documentos de clientes e entreguem a um agente genérico para leitura. Por razões de confidencialidade, isso nem é permitido, e há dezenas de outros problemas. Mesmo assim, o que se aprende é apenas fragmentado: um assistente corrige uma coisa de cada vez, ninguém consegue ver como uma transação inteira se move.

O sinal realmente importante está no nível da transação. Cada transação tem sua forma: para fusões e aquisições, NDA, lista de cláusulas, due diligence, contrato de compra, documentos anexos, checklist de entrega; para litígios de propriedade intelectual, petições, revelação de provas, tecnologia existente, mais petições. Cada área de negócio tem sua estrutura, e advogados e ferramentas não podem ser trocados livremente.

E o verdadeiro problema dessa firma está em um nível mais alto: como gerenciar várias áreas ao mesmo tempo, como um sócio principal que coordena centenas de casos simultaneamente, enquanto introduz novas fontes de trabalho e treina assistentes. Transformar uma empresa assim não é uma tarefa que se resolve com um único teste de avaliação. É preciso um gestor que trate tudo como “beisebol de dados”: objetivos intermediários muito vagos, feedback incompleto, ciclos longos, e um ambiente que não fica parado.

Infelizmente, o valor não legível também é difícil de vender, pelo mesmo motivo que é difícil de transformar em produto: uma empresa não consegue julgar de fora se a IA pode realmente transformar sua operação, como mostram os benchmarks. Assim, as empresas mais fortes param de tentar provar isso externamente, e passam a entrar primeiro na organização do cliente, e a partir daí, definir o valor pelos resultados.

A Sierra só cobra quando seu agente resolve o problema do cliente; se o problema for passado para humanos, ela não cobra. Assim, o preço vira um mecanismo de avaliação. E isso funciona porque a Sierra detém o direito de definir o que é “resolvido”. Devin, da Cognition, fez algo semelhante na área de software, lançando uma “garantia de desempenho”. Só quando você é confiavelmente inserido no sistema, pode oferecer essa garantia pelos resultados.

Mesmo na camada de serviços de tokens — aquela que todos chamam de commodity pura — seu desempenho não é exatamente de commodity. As melhores empresas nativas de IA concentram seus serviços em uma ou duas fornecedoras, como Baseten ou Fireworks. Porque, embora o custo por token esteja se tornando uma commodity, a confiabilidade sob carga real e o acesso estável a recursos escassos de computação não são. Onde oferecer o serviço de inferência, e quais modelos usar, são decisões distintas. A única parte realmente “commodity” na inferência é o preço.

Um argumento comum é: os laboratórios são seus fornecedores, por que eles não usam seus próprios produtos de primeira linha para vender abaixo do custo e acabar com você? Ou simplesmente revogam seu acesso à API e tomam o mercado para si? Essa é a versão mais pura do desespero. Mas só funciona se o nível de modelos for uma competição de um só jogador.

Claramente, essa não é a realidade. O nível de modelos é mais parecido com uma corrida de morte entre três e meio jogadores, com outros competidores internacionais com progresso cerca de seis meses atrasados, e uma aliança de desenvolvimento cinco vezes maior do que no ano passado. Os clientes querem competição entre fornecedores, e os laboratórios querem participação de mercado, mais do que eliminar qualquer aplicação específica.

Você pode ver isso no mercado de competição direta entre laboratórios. Nos cenários de chat com consumidores, os melhores modelos nunca conquistaram todo o mercado de uma só vez. ChatGPT manteve sua liderança por anos de competição real; sua fatia perdida foi para o Gemini, por causa da distribuição do Android e da busca, não por modelos melhores. A Anthropic é considerada atualmente a melhor em previsão de mercado e no clima da internet, mas quase não atua em chats com consumidores, focando sua atuação em negócios corporativos e codificação.

Se um modelo melhor não consegue tirar usuários de seus concorrentes nas aplicações mais centrais, também não vai facilmente conquistar um sistema de prontuários hospitalares ou um sistema de responsabilidades bancárias por integração. Hoje, o que o público valoriza na escolha de produtos não é apenas a capacidade de codificação. Se os modelos de ponta ainda estão congestionados, a camada de aplicação acima deles mantém seu valor.

Se uma tarefa não pode ser avaliada externamente, alguém precisa decidir internamente o que é uma boa resposta. Essa decisão é o jogo todo. Quando muitas dessas decisões são escritas, elas se tornam benchmarks. Harvey lançou benchmarks na área jurídica, e Sierra criou benchmarks para agentes de voz. Você só tem o direito de definir o que significa “bom” em um campo porque esse campo já está sendo usado por você. E essas empresas conquistaram esse direito por meio de uma luta difícil de adoção real.

A avaliação que realmente determina o fluxo de dinheiro é privada, e se forma de forma incremental por empresa: essa empresa aceita o que considera um bom trabalho nesse tipo de tarefa. E isso ainda não está completo, pois a profundidade do direito é muito maior do que qualquer teste público. A OpenEvidence está consolidando o que é uma resposta clínica segura.

No fundo, tudo isso não é uma “medição” verdadeira, mas uma questão de julgamento do que é verdadeiro e do que é bom. Esses julgamentos são escritos até se tornarem padrões que todos terão que aceitar. Harvey lançou benchmarks na área jurídica, e Sierra criou benchmarks para agentes de voz. Você só tem o direito de definir o que é “bom” em um campo porque esse campo já está sendo usado por você. E essas empresas conquistaram esse direito por meio de uma luta difícil de adoção real.

A avaliação que realmente decide o fluxo de dinheiro é privada, e se forma de modo incremental: essa empresa aceita o que considera um bom trabalho nesse tipo de tarefa. E isso ainda não está completo, pois a profundidade do direito é muito maior do que qualquer teste público. A OpenEvidence está consolidando o que é uma resposta clínica segura.

Tudo isso, na verdade, não é uma “medição” no sentido estrito, mas uma questão de julgamento do que é verdadeiro e do que é bom. Esses julgamentos, uma vez escritos, se tornam padrões que todos terão que aceitar. Por mais inteligentes que os laboratórios de modelos básicos fiquem, eles não podem criar esses padrões do nada, pois esse status só existe dentro do domínio.

Essa autoridade geralmente fica onde ela já existe. Advogados experientes escrevem benchmarks jurídicos. Quem define o que é uma resposta segura na área clínica são os médicos. “Resolvido” é uma decisão de quem já possui relacionamento com o cliente.

A fronteira de absorção continuará a subir, pois aprenderemos a mensurar mais tarefas, e o que pode ser mensurado será engolido. O terreno do “não treinável” vai se estreitando sob os pés de quem está por cima, então você não pode simplesmente encontrar uma posição defensável e parar. Precisa avançar continuamente para áreas que ainda não podem ser avaliadas, reavaliando riscos e reassegurando-se.

Em tarefas específicas, com seus dados privados e sistemas de avaliação próprios, você pode treinar modelos de ponta e superar modelos gerais em cenários críticos; esse modelo dedicado se torna uma parte da barreira de proteção. Por outro lado, se você compete apenas na capacidade de modelos gerais, é uma guerra de capital, e você perderá para quem tiver mais poder de processamento. Essa é a armadilha mais comum para empresas com acesso superficial e tarefas altamente legíveis.

Quando uma empresa decide treinar além do estado da arte em tarefas amplas para sobreviver, o resultado costuma depender do tamanho do data center. O desfecho final geralmente não é um campeão independente, mas a venda para um jogador com poder computacional suficiente.

Tudo isso é uma estratégia defensiva. O mais difícil é atacar: primeiro, decidir o que construir. Essa é a questão que tenho buscado há um ano, e acho que só encontrei três vezes. Modelos não ajudam nisso. Para onde você aponta, eles vão; mas eles não dizem o que vale a pena apontar. Não há benchmarks para isso, e, portanto, não há treinamento.

Por isso, os grandes players não vão tomar tudo: eles vão proteger seu território, enquanto a próxima inovação vem de alguém que descobriu uma nova aplicação antes dos outros. Talvez, a intenção seja um input mais escasso que o poder de processamento.

Essa sensação de desespero está parcialmente certa. As camadas superficiais estão sendo absorvidas, e muitas coisas que parecem empresas hoje são apenas camadas superficiais. Mas a avaliação do que sobra após a absorção está errada. O mecanismo é claro, o destino, não.

Apostarei na direção de que a inteligência continuará a ficar mais barata, enquanto o valor se desloca para lugares que poucos modelos podem alcançar. O que não pode ser treinado é o valor carregado de história.

Portanto, entrar em um desses domínios, fazer essas traduções pouco glamorosas, e começar a definir o que é “bom” lá dentro, é uma estratégia. Porque sempre haverá alguém fazendo isso. As pontuações de benchmarks mais citadas este ano são, na verdade, um mapa de domínio que logo perderá valor, e um aviso: um aviso para alguns, de que eles estão prestes a perder o direito de definir o que é “bom”.

[Link do artigo original]

Clique para conhecer as vagas na BlockBeats

Participe do grupo oficial da BlockBeats no Telegram:
https://t.me/theblockbeats

Grupo de discussão no Telegram:
https://t.me/BlockBeats_App

Conta oficial no Twitter:
https://twitter.com/BlockBeatsAsia

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixado