La carrera de chips de IA en los últimos dos años casi se ha centrado en HBM, pero a medida que las aplicaciones de IA pasan del entrenamiento de modelos a una inferencia a gran escala, el próximo cuello de botella de suministro quizá ya no sea solo HBM, sino HBF (High Bandwidth Flash, memoria flash de alta velocidad y alto ancho de banda). El ganador del Premio Turing y profesor de UC Berkeley, David Patterson, señaló el 30 de abril en San Francisco, EE. UU., que cree que HBF probablemente se convertirá en la tecnología de memoria clave que impulsará una demanda de rápido crecimiento y, hasta, en un nuevo cuello de botella.
(¿Qué cambió con la Vera Rubin de Nvidia? Análisis de la era de la guerra de la memoria: SK Hynix, Samsung, Micron y SanDisk)
Por qué el ganador del Premio Turing David Patterson apuesta por HBF
El debate sobre memoria para IA casi siempre gira en torno a HBM (memoria de alto ancho de banda), pero a medida que las aplicaciones de IA pasan del entrenamiento de modelos a una inferencia a gran escala, el próximo cuello de botella de suministro quizá ya no sea solo HBM, sino HBF (High Bandwidth Flash, memoria flash de alta velocidad y alto ancho de banda).
Patterson es una figura de peso en el mundo de la informática y se le considera uno de los diseñadores clave de la arquitectura RISC. Al hablar de la siguiente etapa después de HBM, indicó que, aunque HBF aún tiene muchos retos técnicos por resolver, el HBF impulsado por empresas como SK Hynix y SanDisk tiene la característica de “ofrecer gran capacidad con menor consumo de energía”. En el futuro, la variable central de los sistemas de IA no será solo el cómputo, sino si los datos pueden almacenarse, gestionarse y suministrarse de forma eficiente.
Qué es HBF: apilar NAND Flash no para reemplazar HBM, sino para hacer un reparto de funciones
La mayor diferencia entre HBF y HBM es el material de memoria subyacente. HBM apila DRAM de manera vertical para proporcionar la capacidad de acceso a datos de alto ancho de banda que requieren GPU y aceleradores de IA; su función principal es “alimentar datos rápidamente a las unidades de cómputo”. HBF, en cambio, apila memoria no volátil NAND Flash. Su ventaja central no es la velocidad extrema, sino proporcionar una mayor capacidad de datos a menor costo y con menor consumo de energía.
Dicho de otra forma, HBM resuelve el problema de “velocidad” en el proceso de cómputo de IA, mientras que HBF resuelve el problema de “capacidad” cada vez mayor en los sistemas de IA. Por eso HBF no es simplemente un reemplazo de HBM, sino que establece un nuevo reparto de funciones de memoria. HBM se encarga del intercambio inmediato y rápido de datos; HBF asume las necesidades de almacenamiento de gran escala para datos intermedios, datos de contexto y la reutilización repetida de datos durante el proceso de inferencia.
La expansión del mercado de inferencia impulsa la demanda de HBF
La razón por la que HBF recibe más atención en 2026 es que el foco del mercado de IA se está desplazando gradualmente del entrenamiento hacia la inferencia. El entrenamiento de IA consiste en alimentar grandes volúmenes de datos al modelo para que aprenda parámetros y patrones; la inferencia de IA, en cambio, ocurre cuando el modelo ya ha sido entrenado y produce respuestas reales según las entradas del usuario, ejecuta tareas, conserva el contexto previo y, de forma continua, toma decisiones.
En escenarios de inferencia, la IA no solo responde preguntas una vez, sino que debe conservar el historial de la conversación anterior, el contexto de trabajo, los resultados de las evaluaciones, los registros de invocación de herramientas e incluso los datos intermedios entre tareas. Estos datos son enormes y necesitan leerse y actualizarse de forma repetida.
El problema es que, si todos esos datos se colocan en HBM, el costo es demasiado alto y la capacidad tampoco es realista. HBM es adecuada para procesar datos de alta velocidad que se necesitan de inmediato, pero no es apropiada para asumir todo el contexto y los estados intermedios que se generan durante la inferencia. Cuando se generalizan los AI Agents, los modelos de contexto largo, la inferencia multimodal y los flujos de trabajo de IA a nivel empresarial, el sistema ya no necesita solo memoria más rápida, sino un conjunto de datos de alta velocidad aún mayor. Esa es la razón por la que HBF está ganando favor.
SK Hynix y SNDK han impulsado la estandarización; para 2038, la demanda de HBF podría superar la de HBM
Para buscar mayor ancho de banda, SK Hynix y SanDisk colaboraron en el desarrollo de HBF. Es una técnica de apilamiento 3D similar a HBM, pero utiliza obleas NAND, con el objetivo de ofrecer un rendimiento de transferencia varias veces superior al de los SSD tradicionales, enfocada específicamente en la inferencia de IA.
El profesor de ingeniería eléctrica y electrónica de KAIST en Corea, Jin Jong-ho, también había señalado en una presentación técnica de HBF en febrero que en la era de las PC el núcleo era la CPU; en la era de los teléfonos inteligentes, el núcleo es el bajo consumo de energía; y en la era de la IA, el núcleo es la memoria. Dividió con claridad los roles de HBM y HBF: la velocidad la determina HBM, mientras que la capacidad la determina HBF. Jin Jong-ho también predijo que, a partir de 2038, la demanda de HBF podría superar la de HBM.
La lógica de esta estimación es que, a medida que el mercado de inferencia de IA crece, el contexto inmediato que debe procesar el modelo, los datos históricos y el estado de las tareas se vuelven cada vez más grandes. Si solo se amplía HBM, no solo los costos serían elevados, sino que también seguirían aumentando el consumo total de energía del sistema y la presión de encapsulado. Si HBF puede lograr avances en ancho de banda, encapsulado, durabilidad y estandarización, podría convertirse en la nueva capa clave de memoria para los centros de datos de IA.
De HBM a HBF: la carrera de IA pasa de “calcular más rápido” a “recordar y poder ajustar”
En el pasado, cuando el mercado hablaba de semiconductores para IA, el foco estaba en gran medida en GPU, procesos avanzados y la disponibilidad de HBM. En particular, después de un aumento explosivo en la demanda de servidores de IA por parte de Nvidia, HBM llegó a convertirse en un indicador clave para evaluar la competitividad de fabricantes de memoria como SK Hynix, Samsung y Micron. Pero las declaraciones de Patterson le recuerdan al mercado que los cuellos de botella de la infraestructura de IA se están volviendo más complejos.
Cuando la IA aún está en la fase de competencia de entrenamiento de modelos grandes, el objetivo es alimentar las GPU con memoria de mayor ancho de banda; pero cuando la IA entra en etapas de inferencia a gran escala y aplicaciones de Agents, el problema se transforma en: ¿cómo mantiene el modelo el contexto durante mucho tiempo? ¿Cómo se guarda el estado de las tareas con bajo costo? ¿Cómo se hace que los datos fluyan de manera más eficiente entre la GPU, HBM, SSD, Flash y el almacenamiento en red?
Por lo tanto, la próxima etapa de la carrera por la memoria de IA quizá ya no sea solo una disputa por la capacidad de producción de HBM, sino una reestructuración de toda la jerarquía de memoria. HBM seguirá siendo importante porque determina si los chips de IA pueden computar a alta velocidad; pero la aparición de HBF indica que los sistemas de IA empiezan a necesitar una nueva capa de datos entre el almacenamiento tradicional y la memoria de alto ancho de banda. No necesariamente es la más rápida, pero podría encontrar un nuevo equilibrio entre capacidad, consumo de energía y costo.
Esto también significa que la próxima palabra clave de la cadena de suministro de IA podría pasar de “memoria de alto ancho de banda” a “memoria flash de alto ancho de banda”. HBM resuelve el cuello de botella del cómputo inmediato de IA, mientras que HBF podría resolver el cuello de botella de memoria de datos de mayor escala en la era de la inferencia.
¿Este artículo dice que el cuello de botella de memoria de IA después de HBM es HBF? Ganador del Premio Turing David Patterson: la inferencia redefinirá la arquitectura de almacenamiento. Lo primero aparece en Cadena News ABMedia.
Related News
Análisis de Berkeley GEPA: la IA puede aprender nuevas tareas sin actualizar los pesos, 35 veces menos coste de entrenamiento que con RL
JPMorgan: el volumen de operaciones con stablecoins se dispara, pero el mecanismo de Velocity hace que la capitalización no crezca de forma proporcional
a16z comenta: el término «stablecoin» se volverá obsoleto; lo siguiente es «moneda programable»
OpenAI lanza GPT-5.5-Cyber: enfrenta a Anthropic Mythos
El vicepresidente de Nvidia para el aprendizaje profundo cree que el gasto en cómputo de IA supera el costo de los salarios del personal