Andrej Karpathy recientemente respondió en la plataforma X a las opiniones del ingeniero del equipo de Anthropic Claude Code Thariq Shihipar, señalando que al hacer preguntas a los grandes modelos de lenguaje, con solo añadir una frase al final del prompt, «Por favor, presente la respuesta en una estructura HTML», y luego colocar el archivo generado en el navegador para verlo, el resultado suele ser muy bueno. Incluso afirmó que él mismo había intentado pedirle a la LLM que convirtiera la respuesta en formato de diapositivas, obteniendo igualmente buenos resultados.
(Ingeniero de Anthropic: HTML es el mejor formato de salida para Claude Code, no Markdown)
Del texto plano a HTML: la salida de la IA pasa de «legible» a «visual»
Estas declaraciones continúan el debate en la comunidad de desarrolladores de IA sobre si «¿HTML es más adecuado que Markdown como formato de salida de la IA?». Shihipar había sostenido previamente, en el artículo〈Using Claude Code: The Unreasonable Effectiveness of HTML〉, que para agentes de codificación de IA como Claude Code, HTML no es solo un formato de maquetación, sino una interfaz de salida que permite que las respuestas de la IA evolucionen de texto lineal a documentos interactivos.
Karpathy, por su parte, llevó el tema un paso más allá, hacia la evolución de las interfaces de entrada y salida entre humanos y IA. Karpathy considera que, en la actualidad, la salida predeterminada de la mayoría de LLM todavía se mantiene en la etapa de Markdown. En comparación con el texto original, Markdown ya ha mejorado la experiencia de lectura mediante títulos, negritas, cursivas, tablas, etc., pero en esencia sigue siendo una presentación lineal centrada en el texto.
En su clasificación, los formatos de salida de la IA pueden verse, a grandes rasgos, como una ruta de evolución: la primera etapa es el texto original, con el mayor costo de lectura; la segunda etapa es Markdown, es decir, el formato predeterminado de la mayoría de productos de IA actuales; la tercera etapa es HTML. Aunque HTML sigue siendo un producto “programado” y en la capa inferior requiere etiquetas y estructura, puede proporcionar gráficos, maquetación y estilos con más flexibilidad, e incluso incorporar elementos interactivos.
Markdown hace que las respuestas de la IA «sean más fáciles de leer», pero HTML podría convertirlas en documentos que «se pueden navegar, se pueden operar y se pueden comprender visualmente».
Este es también el motivo central por el que Shihipar defendía antes que HTML supera a Markdown: HTML puede albergar gráficos y tablas SVG, codificación de colores, estilos CSS, bloques de advertencia, anclas dentro de la página, elementos interactivos y tablas comparativas lado a lado. Para escenarios como documentación técnica, análisis de vulnerabilidades, visualización de datos y explicaciones didácticas, HTML puede transformar la información textual que antes el lector necesitaba digerir poco a poco en documentos visuales que permiten identificar de inmediato niveles, riesgos y relaciones.
Karpathy: a los humanos les gusta la entrada por voz, pero prefieren la salida visual para la IA
Las nuevas perspectivas de Karpathy no solo hablan de HTML, sino del futuro de la interfaz de la IA.
Señaló que, desde el lado de la entrada, los humanos podrían preferir más la interacción por voz con la IA, porque hablar es una forma de expresión natural y de bajo costo. Pero desde el lado de la salida, lo que más prefieren los humanos en realidad es la información visual, incluidas imágenes, animaciones y videos.
Su razonamiento es que el cerebro humano dedica aproximadamente un tercio a procesar información visual. Por lo tanto, a medida que aumentan las capacidades de la IA, la IA no debería limitarse a empaquetar las respuestas como texto, sino avanzar gradualmente hacia una salida visual más densa y más intuitiva.
Esto hace que la importancia de HTML se vuelva más clara. HTML no es el punto final, sino una etapa de transición por la cual la IA pasa de la salida textual a la visualización. Es más capaz que Markdown para expresar imágenes, maquetación e interacción, pero a la vez es más estable y controlable que los videos o simulaciones generadas completamente por redes neuronales.
Karpathy además especuló que, aunque la tecnología relevante aún no existe, a largo plazo el punto final de la salida de la IA podría ser algún tipo de video o contenido de simulación interactivo generado directamente por modelos de difusión.
Dicho de otro modo, en el futuro la IA no solo podría «responderte con un texto», ni «crear un documento HTML», sino generar directamente escenarios visuales interactivos, explorables y con cambios dinámicos. En ellos, los usuarios podrán operar, ver cambios y comprender relaciones de causa y efecto, como si se combinaran videos de enseñanza, simulaciones interactivas e interfaces de generación en tiempo real.
Sin embargo, Karpathy también admite que aquí aún hay muchos problemas abiertos. En particular, cómo combinar los productos «Software 1.0» tradicionales de la ingeniería de software—precisos, verificables y programables—como simulaciones interactivas, componentes de front-end y modelos matemáticos, con las imágenes neuronales, animaciones o videos generados por modelos de difusión, todavía no tiene una respuesta madura.
Este artículo Karpathy: ¡la IA no debería quedarse en Markdown! HTML es el futuro, el final son escenarios interactivos explorables apareció por primera vez en Cadena de noticias ABMedia.
Artículos relacionados
¡Transformers en versión humana! Tech de Youshu presenta el primer vehículo robótico de producción masiva del mundo, con un precio de 570 mil dólares.
Thinking Machines Model T empata a GPT-Realtime-2 por el primer puesto en el benchmark de audio de hoy con una puntuación APR del 43,4%
Arthur Hayes predice que Bitcoin volverá a $126.000 en medio de la carrera armamentística de IA entre EE. UU. y China y la inflación de guerra
HrdWyr recauda $13M Serie A para el desarrollo de chips de IA
Los empleos en IA en India aumentan 15-20%, afirma el ministro en la cumbre de CII
Se proyecta que el proyecto de OpenAI ahorre 97 mil millones de dólares en pagos a Microsoft para 2030 bajo un nuevo acuerdo