La ola de IA impulsa la demanda de memoria y hace que los precios suban; sin embargo, el mercado sigue preocupado de que HBM pueda repetir la “reacción cíclica” del pasado, como lo hizo la DRAM: tras los picos de demanda, invertirla rápidamente. Un analista de arquitectura de semiconductores, fin, señala que la lógica de demanda de HBM se ha desligado de las reglas del sector tradicional de memorias y que ahora se está revalorando mediante tokens.

(¿Se enfría la subida de memoria? Evaluaciones de instituciones: el alza del Q2 se estrecha hasta un 30%, y en la segunda mitad del año seguirá enfriándose)

La memoria en la era de la CPU: un accesorio prescindible

fin indica que, en la época en la que la CPU dominaba la computación, el papel de la DDR siempre fue secundario. Los ingenieros de CPU desarrollaron un conjunto de técnicas de arquitectura para ocultar la latencia de la memoria, incluyendo diseños de superescalar, cachés multinivel, y renombrado de registros, lo que permite al procesador mantener un alto rendimiento sin depender de condiciones de memoria ultrarrápida:

La regla general en la industria es que, incluso si el ancho de banda de DDR se duplica directamente, la mejora total del rendimiento de la CPU a menudo no supera el 20%.

Esta arquitectura moldeó directamente el ritmo de crecimiento de la industria DRAM de las últimas décadas. De DDR3 a DDR5 tardaron 15 años; en la década anterior, la capacidad de DDR de un PC típico pasó de 7 a 8 GB a aproximadamente 23 GB, es decir, en 10 años solo se multiplicó por tres. La principal fuente de ganancias de los fabricantes de DRAM proviene del tamaño de la capacidad, mientras que las mejoras de ancho de banda son solo un medio para elevar el precio unitario.

En la era de la CPU, la memoria es el eslabón con menor utilidad marginal dentro de la industria de chips; las fluctuaciones cíclicas son la norma y también el destino.

Con la llegada de la era de inferencia de IA, se reescribe desde la raíz el valor de la memoria

Sin embargo, cuando el protagonista de la computación cambia a motores de inferencia de IA, los criterios de medición también cambian. En lugar de compararse por “cuántas operaciones de coma flotante puede ejecutar por segundo”, ahora el núcleo de los KPI en la era de la IA se reduce a uno solo: cuántos tokens puede generar por costo unitario y por consumo de energía unitario.

El concepto de “fábrica de IA” propuesto por el CEO de Nvidia, Jensen Huang, describe con precisión esta nueva lógica: el propósito de una fábrica de IA es producir la mayor cantidad de tokens al menor costo posible y, al mismo tiempo, llevar la velocidad de salida de los tokens al límite. El objetivo de optimización se expande desde una sola dimensión hacia afuera: no solo se busca maximizar el throughput total de tokens, sino también la velocidad de salida de tokens por cada solicitud.

Este cambio de KPI marca el punto de inicio de la inversión del destino de HBM.

La fórmula del throughput de tokens revela la primera ley de la demanda de HBM

fin descompone el throughput de tokens de la inferencia de IA en el producto de dos parámetros: “cantidad de lotes de solicitudes que se procesan simultáneamente × velocidad promedio de generación de tokens por solicitud”. Al rastrear los cuellos de botella de cada parámetro, la respuesta apunta al mismo componente.

El cuello de botella de la cantidad de lotes está en la capacidad de almacenamiento de HBM. Cada solicitud de inferencia lleva su propio caché KV, es decir, el mecanismo que guarda estados intermedios durante el proceso de inferencia del modelo. Ese caché debe almacenarse en HBM para que el modelo pueda leerlo repetidamente a alta velocidad cada vez que genera un token. Cuanto mayor sea el tamaño del lote, mayor será el espacio de almacenamiento de HBM requerido; ambos guardan una relación lineal directa.

El cuello de botella de la velocidad del token está en el ancho de banda de HBM. En la fase de decodificación del modelo, por cada token generado se requiere leer repetidamente grandes pesos de arranque y el caché KV. La velocidad de lectura determina directamente la eficiencia de generación del token, y el tope de la velocidad de lectura es el ancho de banda de HBM.

Asegura que esta relación puede explicarse con el símil de vehículos de enlace en un aeropuerto: la capacidad de HBM es el tamaño del vagón del vehículo, que determina cuántos pasajeros caben en un solo viaje; el ancho de banda de HBM es el ancho de la puerta, que determina la velocidad con la que los pasajeros suben y bajan; y el throughput total de transporte de pasajeros es el producto del tamaño del vagón por la velocidad de esos vehículos. De ahí se deriva el primer principio de las necesidades de hardware para inferencia de IA:

Throughput de tokens = Capacidad de HBM × Ancho de banda de HBM

Para que el throughput de tokens de cada generación de GPU mantenga un crecimiento generacional del doble, el producto entre la capacidad de HBM y el ancho de banda de HBM debe duplicarse en cada generación.

La optimización de software no resuelve el problema: la demanda de HBM queda fijada en una senda exponencial

Ante esta inferencia, la objeción más común del mercado es: ¿la optimización del software no podría reducir la dependencia de HBM? Su respuesta es que la eficiencia del software y el avance de especificaciones del hardware son dos dimensiones completamente independientes y que no se sustituyen entre sí. Es como si, aunque se optimice el software de CPU hasta el límite, todavía no se puede impedir que Intel o AMD, en cada generación, tengan que entregar puntuaciones más altas en las pruebas estándar; de lo contrario, el producto no se venderá.

La lógica de la GPU es exactamente la misma: mientras la demanda global de tokens siga expandiéndose, la búsqueda de un mayor throughput de tokens no se detendrá; y la necesidad de mejoras en HBM en ambos frentes tampoco se detendrá.

Más importante aún: esta presión no proviene de un arrastre externo por el ciclo económico, sino de una demanda endógena desde el lado de la oferta. Mientras Nvidia necesite vender la siguiente generación de GPU, necesariamente presionará a SK Hynix, Samsung y Micron para exigir que en cada generación HBM avance simultáneamente en capacidad y ancho de banda, porque el techo de HBM es el techo del rendimiento de la GPU.

Si se traza el throughput de tokens de las distintas generaciones de GPU de Nvidia, desde A100 hasta Rubin Ultra, junto con los valores correspondientes de “capacidad de HBM × ancho de banda de HBM” en el mismo plano cartesiano de escala logarítmica, el nivel de concordancia entre las dos curvas será sorprendente. No es una coincidencia histórica, sino una consecuencia inevitable de la optimización del sistema.

HBM se despide del destino cíclico, pero el mercado aún debe reevaluar la lógica de fijación de precios

Con todo lo anterior, la diferencia esencial entre HBM y la DRAM tradicional ya queda clara a nivel de arquitectura. La memoria tradicional es un “subproducto” de la industria de chips, con una demanda de baja tracción; una vez que el ritmo de expansión de capacidad supera la recuperación de la demanda, la caída cíclica de precios llega como se esperaba.

Pero la demanda de HBM ya queda fijada en una senda de crecimiento exponencial por la lógica física de la arquitectura de inferencia de IA. Esto no tiene una relación causal directa ni con el “calor” o “frío” del mercado general de IA, ni con el ciclo económico general.

Por supuesto, el problema real no está en el lado de la demanda, sino en el lado de la oferta: ¿los tres grandes jugadores, SK Hynix, Samsung y Micron, podrán contener el impulso de expansión ciega que se repitió una y otra vez durante las décadas pasadas ante una demanda fuerte, y evitar sembrar de nuevo la plaga cíclica de exceso de oferta? La respuesta a esa pregunta será la variable clave que determine si este ciclo de memoria podrá sostenerse a largo plazo.

(¿Si las acciones de memoria se desploman aún se pueden comprar? Analista de Samsung Securities: correcciones dentro del ciclo, no un pico del ciclo económico)

Este artículo rompe el mito de la ciclicidad. ¡Una sola fórmula desglosa la estructura de la demanda de HBM: por qué la memoria solo seguirá subiendo! El más temprano apareció en Lianxin ABMedia.

Aviso legal: La información de esta página puede proceder de terceros y no representa los puntos de vista ni las opiniones de Gate. El contenido que aparece en esta página es solo para fines informativos y no constituye ningún tipo de asesoramiento financiero, de inversión o legal. Gate no garantiza la exactitud ni la integridad de la información y no se hace responsable de ninguna pérdida derivada del uso de esta información. Las inversiones en activos virtuales conllevan riesgos elevados y están sujetas a una volatilidad significativa de los precios. Podrías perder todo el capital invertido. Asegúrate de entender completamente los riesgos asociados y toma decisiones prudentes de acuerdo con tu situación financiera y tu tolerancia al riesgo. Para obtener más información, consulta el Aviso legal.