HBM vs GDDR: Como a memória de alta largura de banda pode superar o gargalo de "memória" no treinamento e inferência de IA

Na corrida de IA com modelos de grande escala que ultrapassam trilhões de parâmetros, embora o poder de cálculo da GPU seja certamente o foco, um componente mais oculto, mas que decide o limite máximo, está se tornando o ponto estratégico de disputa na indústria — a memória de alta largura de banda (High Bandwidth Memory, HBM). Se compararmos a GPU a um motor de altíssima performance com milhares de cilindros, então o HBM é o sistema de combustível que fornece dados continuamente para ele. Se o fornecimento de combustível não acompanhar, mesmo o motor mais potente só poderá funcionar em vazio.

A indústria geralmente reconhece que o gargalo de poder de IA não está mais limitado à unidade de cálculo em si, mas sim na eficiência de transporte de dados. Dados mostram que, em arquiteturas tradicionais de computação, o consumo de energia na movimentação de dados costuma representar de 60% a 80% do consumo total do sistema. Em cenários de inferência, a ociosidade do poder de cálculo da GPU pode chegar a 99%. Por trás disso, um fator limitante crucial é a largura de banda da memória.

A HBM, com suas tecnologias de empilhamento 3D e via de through-silicon (TSV), consegue alcançar uma largura de banda e eficiência energética muito superiores às memórias tradicionais por unidade de área, tornando-se padrão em aceleradores de IA de gigantes como NVIDIA, AMD, Google, entre outros.

Princípios técnicos: Como a HBM reconstrói o canal de dados entre GPU e memória

De “carro de corrida plano” a “elevador vertical”

A HBM não é uma nova mídia de armazenamento, mas um conjunto de especificações de interface e encapsulamento que definem “como fazer o DRAM se conectar com largura de banda extremamente alta”. Sua tecnologia central pode ser decomposta em três níveis:

Empilhamento 3D — empilhar chips de DRAM em múltiplas camadas verticalmente (atualmente, o padrão é de 8 a 12 camadas, com a HBM4 avançando para 16), aumentando exponencialmente a densidade de armazenamento e o número de canais paralelos na mesma área física.

Via de TSV (Through-Silicon Via) — dentro de cada camada de chip de DRAM, gravar microfuros de diâmetro de apenas 5-10 micrômetros, preenchendo-os com material condutor para formar canais verticais, conectando as camadas em milhares de níveis. Em contraste com as rotas tradicionais de PCB, que podem chegar a centímetros ou metros, os sinais via TSV são transmitidos em micrômetros, reduzindo drasticamente atenuação e latência.

Interposer de silício — a pilha de HBM é conectada por microprotrusões a uma camada intermediária de silício, que por sua vez se conecta ao chip GPU/CPU em uma distância extremamente curta, formando um módulo encapsulado unificado. Essa estrutura é realizada por processos avançados de empacotamento como CoWoS, de 2.5D.

A inovação central dessa arquitetura está na largura do barramento. Uma pilha de HBM geralmente possui uma largura de 1024 bits, podendo chegar a 2048 bits na HBM3E. Por exemplo, a HBM3E de última geração da SK Hynix tem capacidade de 24GB por chip, com largura de banda ultrapassando 1TB/s. Em comparação, soluções tradicionais de GDDR possuem largura de 32 bits (por chip) ou 384 bits (por múltiplos chips), com capacidades de transmissão de dados muito menores.

A lógica de design da HBM é “largo e lento”: troca uma alta largura de banda por um grande número de canais paralelos, cada um operando em frequências relativamente baixas, o que melhora a eficiência energética. Já a GDDR adota uma abordagem “estreita e rápida”: aumenta a frequência de operação para extrair mais largura de banda de poucos canais. Essas filosofias de projeto atendem a cenários diferentes: a HBM busca máxima throughput, enquanto a GDDR busca um equilíbrio entre throughput e custo.

HBM vs GDDR6: um duelo entre “largo e lento” versus “estreito e rápido”

HBM e GDDR6 pertencem à família de memórias DRAM, ambas destinadas a fornecer canais de acesso a dados para GPUs, mas diferem fundamentalmente em objetivos de projeto, desempenho e estrutura de custos.

Largura de banda: a HBM3E de um único pacote pode atingir 1,2TB/s, enquanto a próxima geração HBM4 deve ultrapassar 2,0TB/s. A GDDR6X, no limite, oferece cerca de 1TB/s por placa. Em termos de consumo energético por unidade de largura de banda, a HBM é significativamente mais eficiente, o que se traduz em vantagens de custo operacional em centros de dados de IA.

Consumo e latência: devido às vias TSV extremamente curtas, a HBM reduz o consumo energético em cerca de 30% em relação à GDDR5. Quanto à latência, a GDDR depende de rotas de PCB e comunicação com a GPU, geralmente na ordem de microssegundos; a HBM, por estar embutida próxima ao chip GPU, reduz a latência para nanosegundos. Apesar de, em cenários de throughput extremo, a latência de acesso aleatório da HBM ser um pouco maior que a da GDDR, para acessos massivos e paralelos — típicos de treinamento e inferência de IA — o throughput é o fator mais crítico.

Custo: essa é a maior desvantagem da HBM. Segundo dados do setor, o custo por GB de HBM ultrapassa US$25, enquanto a GDDR6 fica na faixa de US$5-8. A participação da HBM no custo total de um GPU de ponta pode chegar a 60-80%. Em termos de custo por largura de banda, a GDDR6 muitas vezes é mais eficiente, especialmente em aplicações onde o pico de largura de banda absoluto não é essencial.

De modo geral, a escolha entre HBM e GDDR é uma questão de trade-off entre desempenho de limite e restrições de custo. A HBM é voltada para cenários onde “é preciso atingir um determinado limite de largura de banda para que o sistema funcione” — como inferência de modelos gigantescos de bilhões de parâmetros. A GDDR6 atende a “buscar o menor custo possível dentro de um nível de desempenho aceitável”, como em modelos de médio porte (7B-13B parâmetros).

Elas não são substitutas, mas rotas paralelas para diferentes necessidades. Contudo, na prática de treinamento e inferência em larga escala, a vantagem da HBM está gradualmente empurrando a GDDR para fora do núcleo da competição.

O impasse da “parede de memória”: por que quanto maiores os modelos de IA, maior a demanda por HBM de forma exponencial

Para entender o crescimento explosivo na demanda por HBM, é preciso voltar a um dos principais gargalos do cálculo de IA — a “parede de memória” (Memory Wall).

Crescimento do poder de cálculo versus largura de banda

Nos últimos 30 anos, o poder de processamento dos processadores cresceu seguindo a Lei de Moore, dobrando aproximadamente a cada 18-24 meses; porém, a largura de banda da memória evoluiu muito mais lentamente. Estudos sobre IA e a parede de memória mostram que o poder de cálculo de modelos de IA cresce cerca de 3 vezes a cada dois anos, enquanto a largura de banda da memória aumenta apenas 1,6 vezes, e a largura de banda de interconexões ainda menos. Isso significa que, a cada avanço de poder de cálculo, a capacidade de movimentar dados fica relativamente “desvalorizada”.

Essa contradição é especialmente aguda na inferência. Durante o treinamento, operações de multiplicação de matrizes (GEMM) dominam, com alta densidade de cálculo e uma intensidade aritmética de mais de 100 FLOPs por byte; na inferência, o foco é em multiplicações matriz-vetor (GEMV), com intensidade muitas vezes abaixo de 2 FLOPs por byte. Quanto menor a intensidade aritmética, mais o desempenho do sistema depende da largura de banda de memória — exatamente o efeito da “parede de memória”.

Carga de transporte de modelos grandes na inferência

Na inferência de modelos grandes, o fluxo básico é: a cada token gerado, todo o modelo precisa ser carregado da memória para o núcleo de cálculo. Por exemplo, o modelo Llama 3 de 70B parâmetros, em FP16, ocupa cerca de 140GB de peso. Para gerar um token, esses 140GB precisam ser transferidos uma vez. Para uma geração de 30 tokens por segundo, a largura de banda entre memória e núcleo deve suportar aproximadamente 4,2TB/s.

Essa demanda já está perto ou além do limite de hardware atual. A largura de banda do HBM do NVIDIA H100 SXM5 é de 3,35TB/s. Ou seja, mesmo a GPU mais avançada enfrenta um gargalo na movimentação de dados ao lidar com modelos de 70B de parâmetros. Com modelos de centenas de bilhões ou trilhões de parâmetros, a necessidade de largura de banda cresce de forma linear ou até superlinear.

Capacidade e largura de banda: uma dupla de restrições

A capacidade de memória também é fundamental. Se o total de parâmetros de um modelo excede a capacidade de HBM de uma GPU, é preciso dividir o modelo entre várias GPUs — o que gera comunicação adicional e pode reduzir a eficiência geral. Assim, o valor do HBM está na combinação de largura de banda (que determina a velocidade de inferência e latência) e capacidade (que define se o modelo cabe em uma única GPU ou se há necessidade de múltiplas).

O caminho da indústria já está claro: o HBM está se tornando padrão na configuração de hardware de IA de ponta. Segundo dados da TrendForce, a demanda por HBM deve crescer mais de 130% em 2025, e mais de 70% em 2026, partindo de uma base alta. De coadjuvante na área de gráficos, o HBM está se tornando componente central na cadeia de poder de IA.

Impacto na cadeia produtiva: da escolha tecnológica ao desequilíbrio entre oferta e demanda de trilhões de dólares

Crescimento do mercado

O mercado de HBM está crescendo mais rápido do que muitas previsões iniciais. Segundo dados da SEMI China, até 2026, o mercado de HBM deve atingir US$546 bilhões, representando quase 40% do mercado total de DRAM. A Micron estima que o mercado potencial (TAM) de HBM terá uma taxa de crescimento composta de cerca de 40% ao ano, passando de aproximadamente US$350 milhões em 2025 para US$1 trilhão em 2028 — um valor que já supera o tamanho do mercado de DRAM em 2024.

Restrições de oferta

Porém, o crescimento explosivo da demanda contrasta com a capacidade de produção limitada. Apesar de Samsung, SK Hynix e Micron terem direcionado cerca de 70% de sua capacidade adicional para a produção de HBM, a oferta total ainda apresenta uma escassez de 50-60%.

A principal dificuldade está na fabricação de HBM, que exige processos avançados de fabricação de DRAM (com tecnologia de 1β nm ou menor), além de técnicas de encapsulamento avançadas como TSV, microprotrusões e empacotamento em wafer. A TSMC, com sua plataforma CoWoS, planeja expandir sua capacidade para mais de 125 mil chips por mês até o final de 2026, aumento de cerca de 79%, mas ainda assim insuficiente para atender às encomendas de gigantes como NVIDIA, AMD e Broadcom.

Riscos na cadeia de suprimentos e impacto nos preços

A escassez de capacidade se reflete nos preços. O preço do HBM3E subiu de 5% a 10% em 2025. Além disso, com as principais fabricantes redirecionando sua produção para HBM, a oferta de memórias DDR de consumo diminui, elevando seus preços até o final de 2026. A escassez de HBM está pressionando toda a cadeia de memórias.

Em junho de 2026, Jensen Huang confirmou que SK Hynix, Samsung e Micron já certificaram e começaram a fornecer chips HBM4 em grande escala. A Samsung iniciou a produção em massa de HBM4 em fevereiro de 2026. Mesmo com a expansão simultânea, a lacuna entre oferta e demanda de HBM ainda deve ficar na faixa de 50% em 2025-2026. O equilíbrio de mercado ainda está distante, com uma dinâmica de expansão de capacidade, gargalos de encapsulamento e uma demanda de IA em rápida expansão formando um cenário de tensão contínua.

Conclusão

Desde a inovação tecnológica na base, passando pela dependência rígida de IA, até o desequilíbrio na cadeia produtiva, o HBM evoluiu de uma ramificação da tecnologia de memória para um ponto central na competição por infraestrutura de IA.

A indispensabilidade do HBM na formação de modelos de treinamento e inferência de IA decorre de uma lógica fundamental: quando o tamanho do modelo ultrapassa um certo limite, a largura de banda deixa de ser uma “opção de otimização” e passa a ser um “fator de habilitação” — abaixo de um limiar, o sistema não consegue operar de forma eficiente. Embora a GDDR6 tenha vantagens de custo, sua arquitetura de canais estreitos e alta frequência não consegue igualar a densidade de operações de modelos trilionários. Essa diferença estrutural define que, no núcleo da corrida por poder de IA, o HBM e a GDDR não são simplesmente concorrentes, mas rotas distintas para diferentes níveis de necessidade.

No futuro, a produção de HBM4 (com largura de banda por pacote acima de 2TB/s), a maturidade de empilhamento de 16 camadas e a introdução de novas técnicas de encapsulamento, como soldagem híbrida, irão ampliar ainda mais os limites de desempenho do HBM. Contudo, fabricantes como Huawei já exploram caminhos de otimização de algoritmos que reduzem a dependência do HBM, incluindo arquiteturas de memória SRAM e de computação integrada. A capacidade do HBM de manter sua liderança tecnológica e de atender à sua cadeia de suprimentos durante ciclos de expansão será um dos principais fatores de observação na indústria de poder de IA nos próximos anos.

Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários
  • Fixado