A vaga de IA está a impulsionar a procura de memória e a fazer disparar os preços, mas o sector continua a recear que a HBM volte a repetir o padrão “cíclico”, à semelhança do que aconteceu com a DRAM: depois de picos de procura, uma inversão rápida? Analistas de arquitetura de semicondutores da fin apontam que a lógica de procura da HBM já se desligou das regras da indústria tradicional de memória e está a ser reprecificada através de token.
(Será que o rally da memória está a abrandar? As avaliações das instituições indicam que a subida do 2.º trimestre se estreitou para 30% e que, no segundo semestre, o ritmo irá arrefecer ainda mais)
A memória na era da CPU: um acessório prescindível
fin refere que, na era em que a CPU dominava a computação, o papel da memória DDR era sempre um papel secundário. Os engenheiros de CPU desenvolveram um conjunto de técnicas de arquitetura para mascarar a latência da memória, incluindo design superscalar, caches multinível e renomeação de registos, permitindo que o processador mantivesse um desempenho elevado sem depender de condições de memória de alta velocidade:
A regra geral na indústria é que, mesmo que a largura de banda da DDR dobre directamente, o aumento do desempenho global da CPU fica, na maioria das vezes, aquém de 20%.
Esta arquitetura moldou, de forma directa, o ritmo de crescimento da indústria DRAM nas últimas dezenas de anos. Da DDR3 à DDR5, foram necessários quinze anos; nos últimos dez anos, a capacidade média de DDR nos PCs comuns cresceu de 7 a 8 GB para cerca de 23 GB, ou seja, apenas triplicou em dez anos. As principais fontes de lucro dos fabricantes de DRAM provêm do tamanho da capacidade, enquanto a actualização de largura de banda é apenas um meio de elevar o preço unitário.
Na era da CPU, a memória é o segmento com menor utilidade marginal na indústria de chips: a volatilidade cíclica é o padrão e, em certa medida, o destino.
Com a chegada da era do raciocínio com IA, os critérios de valor da memória são reescritos
No entanto, quando a “estrela” da computação muda para o motor de inferência de IA, os critérios de avaliação também mudam. Os fabricantes de chips passam a comparar quantas operações de vírgula flutuante conseguem executar por segundo; na era da IA, existe apenas um KPI central: quantos tokens consegue gerar por custo unitário e por consumo energético unitário.
O conceito de “fábrica de IA”, proposto pelo CEO da Nvidia, Huang Renxun, descreve com precisão esta nova lógica: o propósito de uma fábrica de IA é produzir o máximo de tokens pelo custo mais baixo possível, ao mesmo tempo que empurra a velocidade de saída de tokens para o limite. O objectivo de optimização deixa de ser unidimensional e passa a abranger várias frentes: maximizar simultaneamente o throughput total de tokens e também procurar a velocidade de saída de tokens por cada pedido.
A mudança deste KPI marca o ponto de viragem do destino da HBM.
Fórmula do throughput de tokens: revelando o primeiro princípio da procura de HBM
fin decompõe o throughput de tokens da inferência de IA em um produto de dois parâmetros: “número de lotes de pedidos processados em simultâneo × velocidade média de geração de tokens por pedido”. Ao analisar os gargalos de cada um destes parâmetros, a resposta aponta para a mesma peça.
O gargalo do número de lotes está na capacidade de armazenamento da HBM. Cada pedido de inferência carrega a sua própria cache KV, ou seja, o mecanismo que guarda estados intermédios no processo de inferência do modelo. Esta cache tem de ser armazenada de imediato na HBM, para que o modelo possa lê-la repetidamente e a alta velocidade sempre que gera um token. Quanto maior o tamanho do lote, maior a capacidade de armazenamento de HBM necessária, e entre os dois existe uma relação proporcional.
O gargalo da velocidade do token está na largura de banda da HBM. Na fase de descodificação do modelo, por cada token produzido é necessário ler repetidamente os enormes pesos de arranque e a cache KV. A velocidade de leitura determina directamente a eficiência de geração de tokens, e o limite da velocidade de leitura é a largura de banda da HBM.
Ele afirma que esta relação pode ser comparada a um autocarro shuttle: a capacidade da HBM é o tamanho da caixa/compartimento do veículo, que determina quantos passageiros cabem numa única viagem; a largura de banda da HBM é a largura das portas, que determina a velocidade com que os passageiros entram e saem; o throughput total do transporte de passageiros é o produto do tamanho da caixa pela velocidade do embarque. A partir daí, chega-se ao primeiro princípio das necessidades de hardware de inferência por IA:
Throughput de tokens = capacidade da HBM × largura de banda da HBM
Para que o throughput de tokens de cada geração de GPU mantenha um crescimento de duas vezes, a multiplicação entre a capacidade da HBM e a largura de banda da HBM tem de duplicar em cada geração.
A optimização de software não resolve o problema; a procura de HBM fica em órbita exponencial
Perante esta dedução, a objecção mais comum do mercado é: será que a optimização de software não consegue reduzir a dependência de HBM? A resposta que ele dá é que a eficiência do software e o avanço das especificações de hardware são duas dimensões totalmente independentes e não se substituem. É como optimizar o software da CPU ao máximo: mesmo assim, isso não impede que a Intel ou a AMD tenham de apresentar pontuações mais elevadas em testes padrão a cada geração; caso contrário, os produtos não vendem.
A lógica das GPU é exactamente a mesma: desde que a procura global por tokens continue a expandir-se, a perseguição por um maior throughput de tokens não vai parar, e as exigências por progressos em ambos os lados da HBM também não irão parar.
O mais importante é que esta pressão não vem de uma procura externa impulsionada pelo ciclo de conjuntura, mas sim de uma procura endógena do lado da oferta. Enquanto a Nvidia ainda quiser vender a próxima geração de GPU, terá de exercer pressão sobre SK hynix, Samsung e Micron, exigindo que, em cada geração, a HBM avance em simultâneo em capacidade e largura de banda, porque o tecto da HBM é, por definição, o tecto do desempenho da GPU.
Ao traçar, num mesmo gráfico cartesiano, o throughput de tokens de cada geração de GPU da Nvidia, do A100 ao Rubin Ultra, juntamente com os valores correspondentes de “capacidade da HBM × largura de banda da HBM”, o grau de aderência das duas curvas surpreende. Não é coincidência histórica; é uma consequência inevitável da optimização do sistema.
Adeus ao destino cíclico da HBM; a lógica de pricing do mercado ainda precisa ser reavaliada
Com base nas deduções acima, a diferença essencial entre a HBM e a DRAM tradicional fica clara. A memória tradicional é um “apêndice” da indústria de semicondutores, com fraca força motriz do lado da procura: sempre que o ritmo de expansão excede a recuperação da procura, o colapso cíclico dos preços chega como previsto.
Mas a procura da HBM foi ancorada pela lógica física da arquitectura de inferência de IA numa trajectória de crescimento exponencial. Isto não tem relação causal directa com o “frio e calor” do mercado global de IA nem com o ciclo económico de conjuntura.
Naturalmente, o problema real não está do lado da procura, mas do lado da oferta: os três grandes intervenientes — SK hynix, Samsung e Micron — conseguem conter o impulso de expansão cega que se repetiu ao longo de dezenas de anos perante uma procura forte, evitando voltar a semear a maldição do ciclo causada por excesso de oferta? A resposta a esta questão será uma variável-chave para saber se o ciclo de memória desta ronda consegue prolongar-se a longo prazo.
(Ainda dá para comprar quando as acções de memória desabam? Analista do banco de investimento Samsung: correcção dentro do ciclo, não pico de conjuntura)
Este artigo quebra o mito do ciclo! Uma fórmula que desmonta a estrutura da procura de HBM: por que é que a memória só pode continuar a subir? Apareceu pela primeira vez em Cadeia de Notícias ABMedia.
Related News
Analistas do Morgan Stanley prevêem que o iPhone 18, em toda a sua gama, suba 100 dólares; o principal motivo é a disparada dos custos de memória
郭明錤 aborda a diferença entre a CoWoS da TSMC e a EMIB da Intel, e revela que a Google já pediu para saltar a MediaTek e submeter as suas próprias propostas
CryptoQuant: O aumento de abril do BTC foi impulsionado pelos contratos perpétuos de sustentabilidade, avisando para o risco de correção
Os maiores beneficiários da “transbordação” da CoWoS da TSMC? A Intel EMIB com uma taxa de rendimento alegadamente de 90%, o empacotamento avançado é a chave para a recuperação
Após a limitação de memória para IA após a HBM, o gargalo de memória será o HBF? Vencedor do Prémio Turing David Patterson: a inferência irá redefinir a arquitectura de armazenamento