Autor: Lin Wanwan
A Exposição Mundial de Filadélfia de 1876. O imperador do Brasil, Pedro II, pegou no telefone inventado por Bell, ouviu a voz do outro lado e exclamou: “Meu Deus, ele fala!”
Cento e cinquenta anos depois, a 18 de março de 2026, no Centro de Conferências de San José. Jensen Huang, vestindo uma jaqueta de couro preta, subiu ao palco da conferência GTC e também disse uma frase que surpreendeu a todos.
“Daqui a dez anos, a NVIDIA terá aproximadamente 75 mil funcionários. Eles estarão extremamente ocupados, pois trabalharão com 7,5 milhões de agentes de IA.”
A plateia riu.
75 mil pessoas, 7,5 milhões de agentes, uma proporção de 1:100.
Jensen Huang também sorriu e acrescentou: “Eles trabalharão 24 horas por dia. Espero que nossos funcionários não precisem competir com eles.”
Aplaudiram, mas esse número foi ofuscado pelos lançamentos de chips mais extravagantes e pelos acordos de cooperação do dia. Mas, se pensarmos nele isoladamente por um momento, pode ser uma das frases mais importantes de toda a conferência.
E não foi só Huang Huang. Há três meses, outra pessoa descreveu um futuro semelhante de forma ainda mais concreta.
Em janeiro de 2026, na CES de Las Vegas, Bob Sternfels, CEO da McKinsey, apresentou números.
“Atualmente, temos 40 mil funcionários humanos e cerca de 25 mil agentes de IA.” Menos de dois anos atrás, esse número era de apenas alguns milhares. Esses 25 mil agentes geraram, nos últimos seis meses, 2,5 milhões de gráficos.
2,5 milhões de gráficos. Antes, essa tarefa era feita por analistas recém-contratados. Com 23 ou 24 anos, carregando o prestígio de universidades renomadas, alinhando coordenadas às 3 da manhã.
Esse era o ponto de partida de todo novo funcionário da McKinsey, trocando trabalho mecânico por uma passagem para o caminho do sócio.
Hoje, essa primeira metade da passagem foi assumida pelos agentes. Sternfels disse: “A IA fez com que alguns cargos crescessem 25%, enquanto outros encolhessem 25%.” A empresa foi dividida exatamente ao meio, uma metade em expansão e a outra em retração.
A história da NVIDIA e a história da McKinsey contam a mesma coisa.
Num mundo de 1:100, quem faz o trabalho são agentes impulsionados por tokens, enquanto as pessoas são apenas interfaces conectadas a esses agentes.
Na semana da GTC, Huang Huang participou do podcast All-In e disse uma frase de impacto ainda maior.
“Suponha que você tenha um engenheiro com um salário anual de 500 mil dólares. Se ele não consumir pelo menos 250 mil dólares em tokens, ficarei muito preocupado.”
O apresentador perguntou se a NVIDIA estaria gastando 200 milhões de dólares em tokens para sua equipe de engenharia, Huang Huang respondeu: “Estamos nos esforçando.”
Um engenheiro que não queima tokens, mesmo com 500 mil dólares, não vale esse valor.
A solução da NVIDIA é simples: incluir tokens no pacote de remuneração. Huang Huang afirmou na palestra principal da GTC que, no futuro, cada engenheiro da NVIDIA terá um orçamento anual de tokens, aproximadamente metade do salário base.
Um engenheiro com salário de dezenas de milhares de dólares receberá uma alocação adicional de poder de raciocínio equivalente a metade do seu salário base, e um terço do pacote total será combustível puro.
Quem tiver o orçamento completo de tokens terá, 24 horas por dia, uma equipe de mais de uma dúzia de agentes de IA ajudando a escrever código, executar testes, pesquisar literatura e fazer simulações. Quem usar apenas a API gratuita ainda estará na mão, digitando no teclado. Dois currículos podem ser idênticos, mas a produção pode variar de 5 a 10 vezes.
Isso já não é teoria no Vale do Silício.
Em março deste ano, o Business Insider reportou uma mudança: engenheiros começaram a perguntar durante entrevistas “qual é o orçamento de tokens para essa posição?” Tomasz Tunguz, sócio da Theory Ventures, chamou o orçamento de tokens de “a quarta coluna do salário do engenheiro”, ficando atrás do salário base, bônus e ações.
Greg Brockman, presidente da OpenAI, foi mais direto: “A quantidade de poder de raciocínio que você consegue chamar vai cada vez mais determinar sua produtividade geral.”
Huang Huang também disse na sua palestra na GTC: “Quantos tokens acompanham minha posição? Isso já virou uma ferramenta de recrutamento no Vale do Silício.”
Na década de 1950, os salários dos trabalhadores das fábricas de Detroit estavam entre os mais altos dos EUA. O que realmente lhes permitiu viver uma vida de classe média foi a linha de montagem inventada por Henry Ford. Os trabalhadores ficavam em uma linha, a linha se movia, eles permaneciam parados, e a produção de cada um era ampliada dezenas de vezes por braços mecânicos. O padrão de vida de um trabalhador de Detroit superava o de artesãos manuais da mesma época. Talvez suas habilidades não fossem melhores, mas eles estavam pisando numa linha de produção mais grossa.
O orçamento de tokens de 2026 é a linha de montagem de 1950.
Mas há uma diferença.
Os trabalhadores de Detroit podiam deixar a Ford e ir para a General Motors ou Chrysler, onde quer que houvesse linhas de montagem. Os sindicatos podiam negociar com os empregadores por maior velocidade e condições mais seguras.
O orçamento de tokens é diferente. A empresa te dá um dia como se você fosse um super-herói, e no dia seguinte você volta a ser um trabalhador comum. As ações podem ser vendidas, suas habilidades podem acompanhar você ao trocar de emprego. O orçamento de tokens não é nada além de um acessório, um interruptor controlado pela empresa.
No Vale do Silício, já existe uma palavra nova para descrever essa situação: “fome de GPU” (GPU hunger).
Quando um top pesquisador de IA troca de emprego, a diferença salarial já ficou em segundo lugar; o primeiro é a capacidade de processamento. Sem poder rodar experimentos, sem poder implantar agentes, suas habilidades ficam limitadas por quotas. “Quanto de token vocês dão” às vezes fica à frente do valor das ações. A ação é um cheque de longo prazo que pode cair de valor, enquanto o orçamento de tokens é a produtividade que pode ser realizada hoje.
Quem não usa IA, simplesmente fica de fora.
Goldman Sachs estima que a IA pode automatizar 25% do trabalho nos EUA. Uma pesquisa da Mercer revelou que 65% dos executivos esperam que entre 20% e 30% dos funcionários sejam realocados por causa da IA. Esses números juntos deixam claro: quem tem tokens produz mais, quem não tem, é otimizado fora do sistema.
A linha de divisão é o quota de tokens, e a relação com a capacidade humana fica cada vez menor.
O valor individual é determinado pelo quota de tokens. E as empresas?
No início de março de 2026, uma empresa de Xangai chamada MiniMax divulgou seu primeiro relatório anual desde sua abertura de capital. Receita anual de 79 milhões de dólares, prejuízo líquido ajustado de 250 milhões de dólares. Pelos indicadores tradicionais, é uma pequena empresa gastadora de dinheiro, com receita equivalente a apenas um trimestre da Accenture.
Mas o mercado de capitais não pensa assim.
O CEO da MiniMax, Yan Junjie, disse algo na teleconferência de resultados que é mais importante do que o próprio relatório: “O valor da empresa é determinado pela densidade inteligente multiplicada pelo throughput de tokens.”
O throughput de tokens não é crescimento de receita, nem número de usuários, nem margem bruta.
Os dados que sustentam essa afirmação são sólidos. Em fevereiro de 2026, o consumo diário de tokens do modelo M2 da MiniMax aumentou 6 vezes em relação a dezembro anterior. O consumo de tokens em cenários de programação aumentou 10 vezes. Na plataforma de agregação de modelos de IA OpenRouter, a MiniMax consumiu 4,55 trilhões de tokens em duas semanas, superando todos os modelos americanos e conquistando o primeiro lugar no ranking global de consumo de tokens, pela primeira vez de uma empresa de Xangai.
O “South China Morning Post” descreveu esse feito como o fim do domínio de um ano dos desenvolvedores americanos, graças aos modelos de código aberto da China. E o que levou ao fim? O consumo de tokens. Quem queima mais tokens, vence.
Essa lógica também se aplica à OpenAI. Sua plataforma API processa 6 bilhões de tokens por minuto, um aumento de 20 vezes em dois anos. Empresas que gastam mais de 100 mil dólares por ano em tokens aumentaram seu consumo quase sete vezes em um ano. O analista da Barclays, Ross Sandler, analisou os dados e concluiu que o consumo de tokens na OpenAI é mais de duas vezes maior do que no Google Gemini.
O consumo de tokens virou uma moeda forte para classificar as empresas de IA.
E o mais interessante é como isso se manifesta internamente nas empresas. O “New York Times” relatou recentemente um fenômeno chamado “tokenmaxxing”: engenheiros da Meta e da OpenAI competem entre si em rankings internos para ver quem consome mais tokens.
O orçamento de tokens está se tornando uma vantagem padrão, como o almoço grátis e o seguro odontológico de dez anos atrás. Um engenheiro que trabalha no escritório da Ericsson em Estocolmo disse ao “New York Times” que o dinheiro gasto no Claude pode até ser maior que seu salário, mas a empresa paga.
Na semana passada, uma matéria do TechCrunch fez uma conta: um engenheiro pode gastar cerca de 10 mil tokens à tarde escrevendo um artigo, enquanto um engenheiro que roda um cluster de agentes pode queimar milhões de tokens por dia nos bastidores, sem precisar digitar uma única palavra.
Há dois anos, o preço de um milhão de tokens era de 33 dólares. Agora, 9 centavos. Uma queda de 99,7%. Quanto mais barato, mais se queima. Quanto mais se queima, mais difícil de ficar sem.
Yan Junjie previu na teleconferência que, no futuro, a demanda do mercado por tokens pode crescer uma ou duas ordens de magnitude.
Essa é a nova forma de precificar uma empresa em 2026. Não importa quanto você ganha, mas quanto de tokens você queima. A MiniMax perdeu 250 milhões de dólares, mas sua curva de crescimento de throughput de tokens é tão acentuada que o mercado está disposto a apostar. Você pode compará-la ao YouTube de 2006, que não gerava receita nenhuma, mas cujo consumo de largura de banda crescia exponencialmente, e o Google pagou 1,65 bilhão de dólares por ela.
Naquela época, o que o YouTube queimava era largura de banda. Hoje, a MiniMax queima tokens. A unidade de medida mudou, mas a lógica permanece a mesma.
Na mesma semana da GTC, aconteceu outra coisa.
Em 18 de março, a Stripe lançou o “Machine Payments Protocol”. Em resumo: agentes de IA agora podem gastar seu próprio dinheiro.
Um agente precisa de um conjunto de dados, pagar por eles para baixar. Precisa de poder de processamento para raciocinar, comprando por segundos. Precisa chamar a API de outro agente, pagando por isso. Todo o processo não requer confirmação humana. A Visa adaptou esse protocolo para pagamentos com cartão de crédito, a Coinbase criou uma carteira exclusiva para agentes, e a Mastercard está desenvolvendo o “Agent Pay”.
O consumo de tokens agora tem uma nova fonte. Antes, só havia o cenário de “pessoas gerenciando agentes”. Agora, os próprios agentes também consomem tokens, e usam o dinheiro ganho com tokens para comprar mais tokens. John Collison, cofundador da Stripe, chamou isso de “corrente de fluxo”.
Huang Huang forneceu os números correspondentes: a NVIDIA quer aumentar a taxa de geração de tokens de 22 milhões para 700 milhões, um aumento de 350 vezes.
Isso é como construir toda uma rede de estradas, apostando que o fluxo de veículos vai crescer exponencialmente.
O investimento de 600 bilhões de dólares em infraestrutura depende de uma premissa: que o consumo global de tokens seja grande o suficiente para cobrir o retorno do investimento. Essa premissa ainda é apenas uma hipótese, e uma hipótese muito cara.
No último trimestre de 2025, as empresas de tecnologia emitiram um recorde de 108,7 bilhões de dólares em títulos. Nas primeiras semanas de 2026, mais 100 bilhões.
Morgan Stanley e JPMorgan estimam que, nos próximos anos, o endividamento total de empresas de IA pode chegar a 1,5 trilhão de dólares. Segundo Goldman Sachs, os gastos de capital em IA já representam cerca de 3% do PIB dos EUA.
Os primeiros a perceberem o risco começaram a comprar seguros. O volume de negociações de swaps de inadimplência aumentou. Com prêmios de dezenas de pontos base, apostam que essas empresas podem não pagar suas dívidas. Daniel Sorid, chefe de estratégia de crédito do Citi, disse em uma reunião de investidores: “Como investidores de crédito, diante dessa transformação de escala, é necessário um investimento de capital tão grande que nos deixa naturalmente inseguros.”
Larry Page, fundador do Google, disse algo mais extremo internamente: “Prefiro falir a perder essa corrida.”
Ele descreve exatamente um dilema do prisioneiro: cada gigante aposta que os concorrentes vão continuar investindo, então eles não podem parar. Quem parar, sai do jogo.
Por outro lado, há dados concretos que mostram otimismo. A taxa de geração de tokens aumentou 350 vezes. A Stripe agora permite que os agentes gastem seu próprio dinheiro. A McKinsey, em dois anos, expandiu de alguns milhares para 25 mil agentes. Se a economia dos agentes realmente decolar, a curva de crescimento do consumo de tokens pode se tornar exponencial.
Mas há uma data que faz muitas pessoas perderem o sono: o cliff de renovação no final de 2026.
De 2024 a 2025, as empresas gastam seu “orçamento de inovação”. Os CEOs dizem na apresentação de resultados: “Estamos abraçando a IA”, o preço não é muito sensível, os resultados não são rigorosos, é dinheiro de fachada. No final de 2026, os primeiros projetos piloto chegam ao ponto de renovação. O orçamento de inovação acaba, o CTO cede seu lugar na mesa, o CFO assume. E o CFO só se importa com um número: ROI.
Se muitos pilotos forem cancelados, o consumo de tokens na ponta final pode sofrer um colapso repentino. A capacidade criada com os 600 bilhões de dólares investidos na parte superior da cadeia fica ociosa, com data centers construídos, energia conectada, chips disponíveis, mas sem uso.
Isso já aconteceu na história.
Em 2000, as telecoms gastaram trilhões de dólares na instalação de cabos submarinos. Quando a bolha estourou, 90% dos cabos ficaram inativos no fundo do mar por quase uma década. Só foram reativados quando a Netflix começou a streaming e o iPhone impulsionou a internet móvel, acendendo um por um os cabos. Os cabos não foram em vão. Lucent, Nortel e WorldCom faliram, mas a infraestrutura permaneceu, enquanto os construtores desapareceram.
Em 2012, a China entrou na energia solar. Wuxi Suntech e Jiangsu Svi quebraram o custo global de painéis solares. Excessos de capacidade, setor devastado por três anos. Depois, a demanda realmente veio, e a energia solar hoje é a fonte de crescimento mais rápido do planeta. Suntech quebrou. Svi quebrou. Os pioneiros ficaram na última escuridão antes do amanhecer.
Após a invenção do telefone por Bell, a Western Union recusou-se a pagar 100 mil dólares pela patente. Dez anos depois, ofereceu 25 milhões, mas Bell não vendeu. Trinta anos depois, a rede telefônica cobria todo os EUA. Mas as pequenas empresas que construíram a rede, na maior parte, não sobreviveram até a popularização do telefone. Os vencedores foram a AT&T, que posteriormente adquiriu e monopolizou tudo.
A história da infraestrutura é sempre essa versão. A direção quase sempre está certa, mas o atraso de tempo mata.
Voltando aos tokens. A estrutura que descrevemos antes — tokens como força de trabalho, pessoas como interfaces, quotas de tokens que definem tudo — só funciona se os tokens forem consumidos de forma contínua, massiva e acelerada. A produção de engenheiros, dez vezes maior, depende do fornecimento de tokens; se cortado, volta a zero. A avaliação de 8,4 trilhões de dólares da OpenAI depende da promessa de poder computacional; se o protocolo acabar, ela encolhe. Os 6 trilhões de infraestrutura dependem do crescimento do consumo final; se a taxa diminuir, vira ociosidade.
Cada camada depende da próxima. Quando a taxa de consumo cresce duas ou três vezes mais lentamente que a construção, toda a cadeia de preços começa a se soltar.
Em 2023, quem tem cartão é o chefe. Em 2026, quem tem tokens é o chefe.
Parece uma troca de palavras, mas as mudanças subjacentes são mais profundas do que a maioria percebe.
GPU é um ativo: uma vez comprado, é seu, trancado no data center, ninguém pode levá-lo embora.
Tokens são fluxo: seu aumento de dez vezes na produção, sua alta avaliação, seu poder de barganha na mesa de negociação, tudo baseado em uma oferta contínua, que não pertence a você. Se o torne a torne, tudo volta a zero.
Quando os tokens se tornam força de trabalho real, as pessoas se tornam apenas interfaces conectadas a eles. Uma boa interface pode fazer os tokens renderem mais. Juízo, estética, experiência ainda existem. Mas quanto uma interface consegue fazer depende principalmente de quantos tokens ela recebe.