HBM vs GDDR: Como a Memória de Alta Largura de Banda Ultrapassa o "Muro da Memória" no Treino e Inferência de IA

Markets
Atualizado: 06/10/2026 05:33

Na corrida pela inteligência artificial com biliões de parâmetros, o poder de computação das GPU pode estar sob os holofotes, mas um componente mais discreto está silenciosamente a tornar-se o novo terreno estratégico da indústria — a Memória de Alta Largura de Banda (HBM). Se uma GPU é como um motor sobrealimentado com milhares de cilindros, a HBM é o sistema de alimentação que mantém o fluxo de dados. Por mais potente que seja o motor, apenas pode funcionar ao ralenti se o fornecimento de combustível não acompanhar.

O consenso do setor está a mudar: o verdadeiro estrangulamento do poder computacional em IA já não se limita às próprias unidades de processamento, mas reside cada vez mais na eficiência da transferência de dados. Os dados mostram que, nas arquiteturas de computação tradicionais, o movimento de dados pode representar entre 60% e 80% do consumo total de energia do sistema. Em cenários de inferência, as taxas de inatividade das GPU podem atingir os 99%. O fator limitativo por detrás deste fenómeno é a largura de banda da memória.

Recorrendo à integração 3D e à tecnologia Through-Silicon Via (TSV), a HBM atinge uma largura de banda e eficiência energética por unidade de área muito superiores às das memórias convencionais, tornando-se uma característica padrão nos aceleradores de IA da NVIDIA, AMD, Google e outros gigantes do setor.

Princípios Técnicos: Como a HBM Redefine o Canal de Dados Entre GPU e Memória

De "Pista Plana" a "Elevador Vertical"

A HBM não é um novo meio de armazenamento; trata-se de um conjunto de especificações de interface e encapsulamento que definem "como interligar DRAM a larguíssima largura de banda". A sua pilha tecnológica central desdobra-se em três camadas:

Empilhamento 3D — Várias camadas de chips DRAM são empilhadas verticalmente (as configurações mais comuns situam-se atualmente entre 8 e 12 camadas, com a HBM4 a avançar para 16 camadas), multiplicando a densidade de armazenamento e o número de canais paralelos na mesma área física.

Through-Silicon Via (TSV) — Microfuros, com apenas 5-10 micrómetros de diâmetro, são gravados em cada camada de DRAM e preenchidos com material condutor, criando canais verticais que possibilitam dezenas de milhares de interligações entre camadas. Em contraste com o cabeamento tradicional em PCB, onde os comprimentos das pistas se medem em centímetros ou metros, nas TSV as distâncias de transmissão de sinal reduzem-se à escala dos micrómetros, diminuindo drasticamente a atenuação e latência do sinal.

Interposer de Silício — Os stacks de HBM ligam-se a um interposer de silício através de micro-bumps, que por sua vez conecta aos chips GPU/CPU a distâncias extremamente curtas, formando um módulo de encapsulamento unificado. Toda a estrutura recorre a tecnologias de packaging avançadas 2,5D, como o CoWoS, para integração de alta densidade.

A grande inovação desta arquitetura está na largura do bus. Um único stack de HBM oferece tipicamente um bus de 1024 bits, enquanto a HBM3E pode escalar até 2048 bits. Por exemplo, o mais recente chip HBM3E produzido em massa pela SK hynix disponibiliza 24 GB de capacidade e uma largura de banda superior a 1 TB/s. Em comparação, soluções GDDR tradicionais oferecem apenas 32 bits por chip (ou 384 bits em configurações multi-chip), resultando em diferenças de várias ordens de magnitude na capacidade de transferência de dados.

O princípio fundamental do design da HBM é "larga e lenta" — atinge a largura de banda total através de um enorme paralelismo de canais, cada um a operar a frequência relativamente baixa, conseguindo assim uma eficiência energética muito superior à dos designs de alta frequência. Já a GDDR segue uma lógica "estreita e rápida" — extrai largura de banda de poucos canais ao aumentar a frequência de operação. Estas abordagens servem cenários de aplicação totalmente distintos: a HBM privilegia o máximo throughput, enquanto a GDDR equilibra desempenho e custo.

HBM vs GDDR6: O Duelo Entre "Larga e Lenta" e "Estreita e Rápida"

Tanto a HBM como a GDDR6 pertencem à família DRAM, servindo de canal de acesso a dados para as GPU, mas diferem profundamente nos objetivos de design, características de desempenho e estrutura de custos.

Largura de Banda: A HBM3E oferece até 1,2 TB/s por stack, sendo que a próxima geração HBM4 deverá ultrapassar os 2,0 TB/s. A GDDR6X atinge cerca de 1 TB/s por placa, já próxima dos limites físicos em produtos topo de gama. Contudo, a HBM é claramente superior em eficiência energética por unidade de largura de banda, traduzindo-se em vantagens operacionais mensuráveis em implementações de centros de dados de IA em larga escala.

Consumo e Latência: Graças aos percursos verticais ultracurtos das TSV, a HBM consome cerca de menos 30% de energia face à GDDR5. Em termos de latência, a GDDR depende das pistas do PCB para comunicar com a GPU, resultando tipicamente em atrasos na ordem dos microssegundos; a HBM, encapsulada diretamente junto ao chip da GPU, reduz a latência para a ordem dos nanossegundos. Note-se, porém, que a latência de acesso aleatório da HBM é ligeiramente superior à da GDDR em cenários de throughput extremo, mas para acessos paralelos massivos em streaming — o modo típico de treino e inferência em IA — o throughput é o verdadeiro fator crítico.

Custo: Este é o ponto mais evidente a desfavor da HBM. Os dados do setor indicam que a HBM custa mais de 25 $ por GB, enquanto a GDDR6 ronda apenas 5-8 $ por GB. A HBM pode representar entre 60% e 80% do custo total de uma GPU topo de gama. A GDDR6 apresenta, de facto, melhor desempenho custo/largura de banda — quando não é necessária largura de banda absoluta máxima, a GDDR6 é claramente mais rentável.

Em suma, a escolha entre HBM e GDDR resume-se a um compromisso entre limites de desempenho e restrições orçamentais. A HBM é imprescindível em cenários onde "é necessário atingir um determinado limiar de largura de banda para operar" — como na inferência de modelos com biliões de parâmetros. Abaixo desse limiar, o sistema simplesmente não funciona de forma eficaz. Já a GDDR6 serve cenários em que "um desempenho aceitável ao menor custo" é prioritário, como na implementação de modelos pequenos a médios (7B-13B parâmetros).

Não se tratam de alternativas diretas, mas de vias técnicas paralelas para necessidades distintas. Contudo, no treino de IA e inferência em larga escala, as vantagens da HBM estão a relegar progressivamente a GDDR para fora do núcleo do setor.

O Dilema da "Parede da Memória": Porque Cresce Exponencialmente a Procura de HBM com Modelos de IA Maiores

Para compreender o crescimento explosivo da procura de HBM, é preciso revisitar um estrangulamento fundamental na computação em IA — a chamada "parede da memória".

O Fosso Entre o Crescimento do Cálculo e da Largura de Banda

Nas últimas três décadas, o desempenho dos processadores duplicou a cada 18-24 meses segundo a Lei de Moore, mas a largura de banda da memória ficou para trás. Estudos sobre IA e a parede da memória indicam que o poder de cálculo dos modelos de IA triplica a cada dois anos, enquanto a largura de banda da memória só cresce cerca de 1,6 vezes, e a largura de banda de interligação ainda menos. Ou seja, cada aumento de capacidade de cálculo desvaloriza a capacidade de transferência da memória.

Esta contradição é especialmente notória na inferência. O treino baseia-se em multiplicação de matrizes (GEMM), com elevada densidade computacional — a intensidade aritmética pode superar 100 FLOPs/byte. Já a inferência centra-se na multiplicação matriz-vetor (GEMV), com intensidade aritmética frequentemente abaixo de 2 FLOPs/byte. Quanto menor a intensidade aritmética, mais o desempenho do sistema depende da largura de banda da memória em vez do poder de cálculo — é o chamado efeito "parede da largura de banda".

O "Peso da Transferência" na Inferência de Modelos de Grande Dimensão

O processo básico de inferência em grandes modelos é: para cada token gerado, todos os parâmetros do modelo têm de ser carregados da memória para o núcleo de cálculo. Tomemos como exemplo o modelo Llama 3 70B: em precisão FP16, os pesos totalizam cerca de 140 GB. Cada token gerado exige mover todos os 140 GB de parâmetros. Para garantir uma geração fluida de 30 tokens por segundo, a largura de banda entre a HBM e o núcleo de cálculo deve suportar aproximadamente 4,2 TB de transferências por segundo.

Esta exigência já está a pressionar os limites do hardware de referência atual. A NVIDIA H100 SXM5 oferece 3,35 TB/s de largura de banda HBM. Ou seja, mesmo o acelerador de IA topo de gama é apenas suficiente para um modelo de 70B parâmetros. À medida que os modelos escalam para centenas de milhares de milhões, biliões e além, a largura de banda necessária crescerá de forma linear — ou mesmo superlinear.

Dupla Restrição: Capacidade e Largura de Banda

A capacidade de memória é outro fator crítico. Se o total de parâmetros de um modelo exceder a capacidade de HBM de uma única GPU, o modelo tem de ser repartido por várias GPU para operação paralela — uma técnica conhecida como paralelismo tensorial. Mas esta divisão introduz um novo estrangulamento: a comunicação frequente de resultados intermédios entre as GPU, que pode degradar a eficiência global.

Assim, o valor da HBM reside em duas dimensões: a largura de banda determina a velocidade de inferência por placa e a latência mínima, enquanto a capacidade dita se o modelo cabe numa só placa, quantas são necessárias e o custo da comunicação entre placas.

A direção do setor é clara: a HBM está a passar de "opção premium" a "configuração padrão" para poder computacional em IA. Dados da TrendForce apontam para um crescimento da procura de HBM superior a 130% em 2025, continuando a aumentar mais de 70% em 2026. A HBM deixou de ser um elemento de suporte no processamento gráfico para se tornar um componente central e insubstituível na cadeia de computação de IA.

Impacto em Toda a Indústria: Das Opções Técnicas ao Desequilíbrio Entre Oferta e Procura

Expansão do Mercado

O crescimento do mercado de HBM está a superar as previsões iniciais da maioria das instituições. Dados da SEMI China estimam que o mercado de HBM crescerá 58% até atingir 54,6 mil milhões $ em 2026, representando quase 40% do mercado total de DRAM. A Micron prevê que o TAM (Total Addressable Market) da HBM cresça a uma taxa anual composta de cerca de 40%, de 35 mil milhões $ em 2025 para 100 mil milhões $ em 2028 — ultrapassando o valor total do mercado de DRAM em 2024.

Restrições Rígidas no Lado da Oferta

Mas o aumento da procura está a confrontar-se com uma capacidade de produção rigidamente limitada. Dados da SEMI mostram que, embora Samsung, SK hynix e Micron tenham direcionado 70% da capacidade nova/ajustável para produção de HBM, o défice global de capacidade de HBM mantém-se entre 50% e 60%.

O estrangulamento resulta das elevadas barreiras à produção de HBM. O fabrico exige tecnologia DRAM de processo avançado (os principais fabricantes operam já no nó 1β nm), além de gravação TSV, ligação por micro-bumps, packaging a nível de wafer e outras técnicas de encapsulamento avançadas. A capacidade de packaging CoWoS da TSMC — a principal plataforma para integração de HBM e GPU — deverá atingir mais de 125 000 wafers por mês no final de 2026, um aumento de cerca de 79% face ao ano anterior, mas ainda insuficiente para responder à procura da NVIDIA, AMD, Broadcom, entre outros.

Riscos na Cadeia de Abastecimento e Transmissão de Preços

A escassez de capacidade reflete-se diretamente nos preços. Os preços da HBM3E subiram 5%-10% durante 2025. Mais importante ainda, à medida que os três principais fabricantes transferem capacidade para a HBM, a oferta de memória DDR de consumo diminui, prevendo-se que os preços continuem a subir até ao final de 2026. A escassez de HBM está a impactar toda a indústria da memória ao comprimir a oferta disponível.

Em junho de 2026, Jensen Huang confirmou que SK hynix, Samsung e Micron já passaram a certificação e iniciaram o fornecimento em massa de chips HBM4, com a Samsung a liderar ao arrancar a produção em massa de HBM4 em fevereiro de 2026. Contudo, mesmo com a expansão simultânea dos três gigantes, o défice entre oferta e procura de HBM deverá manter-se em cerca de 50% durante 2025-2026. O equilíbrio entre oferta e procura a curto prazo permanece difícil de alcançar. O ritmo de expansão a montante, os estrangulamentos na capacidade de packaging e a rápida evolução da procura de computação em IA a jusante criam um cenário dinâmico, mas persistentemente apertado, no equilíbrio oferta-procura.

Conclusão

Desde a inovação tecnológica de base, passando pela dependência crítica nos cenários de computação em IA, até ao desequilíbrio estrutural em toda a cadeia de valor, a HBM evoluiu de um ramo da tecnologia de memória para o campo de batalha central da infraestrutura de IA.

A insubstituibilidade da HBM no treino e inferência em IA resulta de um princípio computacional básico: uma vez ultrapassado um certo limiar de dimensão dos parâmetros do modelo, a largura de banda deixa de ser uma "otimização" para se tornar um "viabilizador" — abaixo desse limiar, o sistema simplesmente não opera de forma eficaz. A GDDR6 pode ter vantagem de custo, mas a sua arquitetura de canais estreitos e alta frequência não consegue igualar o teto de largura de banda e eficiência energética exigidos por modelos com biliões de parâmetros. Esta diferença estrutural faz com que HBM e GDDR não sejam meros concorrentes, mas sim soluções complementares para diferentes requisitos no núcleo da computação em IA.

No futuro, a produção em massa continuada de HBM4 (com largura de banda por stack prevista acima de 2 TB/s), a maturação do empilhamento de 16 camadas e novas tecnologias de packaging como o hybrid bonding irão elevar ainda mais o patamar de desempenho da HBM. No entanto, importa notar que empresas como a Huawei estão a explorar otimizações algorítmicas para reduzir a dependência da HBM, e alternativas como SRAM e arquiteturas compute-in-memory estão também a avançar em paralelo. Saber se a HBM conseguirá manter a liderança nas próximas iterações tecnológicas, e se os estrangulamentos de oferta poderão ser ultrapassados nos próximos ciclos de expansão, serão algumas das variáveis mais relevantes a acompanhar no setor da computação em IA nos próximos anos.

The content herein does not constitute any offer, solicitation, or recommendation. You should always seek independent professional advice before making any investment decisions. Please note that Gate may restrict or prohibit the use of all or a portion of the Services from Restricted Locations. For more information, please read the User Agreement
Curta o Conteúdo