Andrej Karpathy recentemente respondeu no X às opiniões do engenheiro da equipe do Anthropic Claude Code, Thariq Shihipar, destacando que, ao fazer perguntas para modelos de linguagem, basta adicionar no final do prompt uma frase como “Por favor, apresente a resposta em estrutura HTML” e, depois, colocar o arquivo gerado no navegador para visualizar — o resultado costuma ser muito bom. Ele chegou a dizer que também já tentou pedir ao LLM para formatar as respostas em estilo de apresentação de slides e obteve resultados igualmente positivos.
(Engenheiro da Anthropic: HTML é o melhor formato de saída do Claude Code, e não Markdown)
Do texto puro ao HTML: a saída da IA está migrando de “legível” para “visualizável”
A fala dá continuidade às discussões recentes na comunidade de desenvolvedores de IA sobre se “HTML é mais adequado do que Markdown” como formato de saída para IA. Antes, Shihipar defendia em seu artigo “Using Claude Code: The Unreasonable Effectiveness of HTML” que, para agentes de codificação de IA como o Claude Code, HTML não é apenas um formato de layout: é uma interface de saída que permite que a resposta da IA evolua do texto linear para documentos interativos.
Karpathy, por sua vez, elevou o tema ao patamar da evolução das interfaces de entrada e saída entre humanos e IA. Karpathy considera que, atualmente, a maioria das saídas padrão dos LLM ainda permanece na fase do Markdown. Em comparação com o texto original, o Markdown já melhora a experiência de leitura com títulos, negrito, itálico, tabelas etc., mas, em essência, continua sendo uma apresentação linear centrada em texto.
Na sua classificação, os formatos de saída de IA podem ser entendidos, em linhas gerais, como um caminho de evolução: a primeira etapa é o texto bruto, com maior custo de leitura; a segunda é o Markdown — isto é, o formato padrão da maioria dos produtos de IA atualmente; a terceira é o HTML. Embora o HTML ainda seja um produto programático e dependa de tags e estrutura na base, ele oferece mais flexibilidade para gráficos, layout, estilos e até permite adicionar elementos interativos.
O Markdown faz com que as respostas da IA “fiquem mais fáceis de ler”, mas o HTML pode fazer com que as respostas se tornem “documentos que podem ser navegados, manipulados e compreendidos visualmente”.
Esse também era o motivo central pelo qual Shihipar defendia anteriormente que HTML supera Markdown: o HTML consegue abrigar gráficos SVG, codificação por cores, estilos CSS, blocos de aviso, âncoras dentro da página, elementos interativos e tabelas de comparação lado a lado. Em cenários como documentação técnica, análise de vulnerabilidades, visualização de dados e explicações de ensino, o HTML transforma informações textuais que antes exigiam que o leitor fosse absorvendo aos poucos em um documento visual cuja hierarquia, riscos e relações ficam reconhecíveis de imediato.
Karpathy: humanos preferem entrada por voz, mas preferem saída visual
As novas considerações de Karpathy não tratam apenas de HTML — tratam do futuro das interfaces de IA.
Ele aponta que, pela entrada, os humanos podem preferir mais a interação por voz e com a IA, porque falar é uma forma natural e de baixo custo. Porém, pela saída, o que os humanos preferem, na verdade, é informação visual, incluindo imagens, animações e vídeos.
A razão é que o cérebro humano dedica cerca de um terço ao processamento de informações visuais. Portanto, à medida que as capacidades da IA evoluem, a IA não deve apenas empacotar as respostas em texto, mas caminhar gradualmente para uma saída visual mais densa e mais intuitiva.
Isso torna a importância do HTML ainda mais clara. O HTML não é um ponto final; pode ser uma etapa de transição em que a IA sai de uma saída textual rumo à visualização. Ele consegue expressar imagens, layout e interação melhor do que o Markdown, mas é mais estável e controlável do que vídeos ou simulações gerados inteiramente por redes neurais.
Karpathy também faz uma hipótese adicional: embora a tecnologia relevante ainda não exista hoje, no longo prazo o destino das saídas da IA pode ser algum tipo de vídeo interativo ou conteúdo de simulação gerado diretamente por modelos de difusão.
Em outras palavras, no futuro a IA talvez não seja apenas “te responder com um trecho de texto”, nem “fazer um arquivo HTML para você”: ela pode gerar diretamente cenas visuais interativas, exploráveis e com mudanças dinâmicas. O usuário poderá operar, ver a transformação e entender relações de causa e efeito — como se juntasse vídeos de ensino, simulações interativas e uma interface de geração em tempo real.
Ainda assim, Karpathy reconhece que há muitas questões em aberto aqui. Especialmente como combinar, com maturidade, os “produtos da Software 1.0” tradicionais — precisos, verificáveis e programáveis — da engenharia de software, como simulações interativas, componentes de front-end e modelos matemáticos, com imagens de redes neurais, animações ou vídeos gerados por modelos de difusão.
Este artigo Karpathy: a IA não deveria ficar no Markdown! HTML é o futuro; o destino final é um cenário interativo explorável foi publicado pela primeira vez em Cadeia ABMedia.
Related News
Anthropic: Treinamento de textos de ficção científica para Claude Opus 4 aumenta taxa de sequestro em 96%
A OpenAI lança o plano de segurança Daybreak, com uma arquitetura em três camadas do GPT-5,5 contra o Anthropic Mythos
Akshay analisa a arquitetura em 6 camadas do Claude Code: o modelo é apenas um nó dentro de um loop
Jim Cramer: as ações de data centers de IA “ainda não estão tão atrasadas assim”; a lista cobre 4 grandes categorias, de chips à energia
Disputa no Code Mode da Anthropic entre MCP e CLI: ferramentas travam o runtime, tokens caem de 150K para 2K