Karpathy: AI không nên dừng ở Markdown! HTML là tương lai, và cục diện cuối cùng là các bối cảnh tương tác có thể khám phá

ChainNewsAbmedia

Andrej Karpathy 近日 trên X phản hồi quan điểm của kỹ sư đội ngũ Anthropic Claude Code Thariq Shihipar, cho rằng khi hỏi các mô hình ngôn ngữ lớn, chỉ cần thêm ở cuối prompt một câu: “Hãy trình bày câu trả lời theo cấu trúc HTML”, sau đó đưa tệp được tạo ra vào trình duyệt để xem thì hiệu quả thường rất tốt. Thậm chí ông còn nói rằng bản thân từng thử yêu cầu LLM biến câu trả lời thành dạng slide, và kết quả cũng không tệ.

(Trong chia sẻ của kỹ sư Anthropic: HTML mới là định dạng đầu ra tốt nhất của Claude Code, không phải Markdown)

Từ văn bản thuần sang HTML: đầu ra của AI đang chuyển từ “dễ đọc” sang “dễ hiển thị”

Phát biểu này tiếp nối những thảo luận gần đây trong cộng đồng phát triển AI về việc “HTML có phù hợp hơn Markdown làm định dạng đầu ra cho AI hay không”. Trước đó, Shihipar trong bài viết 〈Using Claude Code: The Unreasonable Effectiveness of HTML〉 đã lập luận rằng với các AI coding agent như Claude Code, HTML không chỉ là định dạng trình bày, mà là giao diện đầu ra giúp câu trả lời của AI nâng cấp từ văn bản tuyến tính thành tài liệu có tính tương tác.

Karpathy thì nâng tầm vấn đề lên lăng kính tiến hóa của giao diện vào/ra giữa con người và AI. Theo Karpathy, hiện tại đa số LLM mặc định vẫn dừng ở giai đoạn Markdown. So với văn bản gốc, Markdown đã cải thiện trải nghiệm đọc nhờ tiêu đề, chữ đậm, chữ nghiêng, bảng biểu, v.v., nhưng bản chất vẫn là trình bày tuyến tính lấy văn bản làm trung tâm.

Trong cách phân loại của ông, định dạng đầu ra của AI nhìn chung có thể coi như một lộ trình tiến hóa: giai đoạn đầu là văn bản gốc, chi phí đọc cao nhất; giai đoạn hai là Markdown, tức định dạng mặc định của đa số sản phẩm AI hiện nay; giai đoạn ba là HTML. Dù HTML vẫn là sản phẩm mang tính “lập trình”, tầng dưới cần thẻ và cấu trúc, nhưng nó mang lại sự linh hoạt hơn về đồ họa, bố cục, kiểu dáng, thậm chí có thể thêm các yếu tố tương tác.

Markdown giúp câu trả lời của AI “dễ đọc” hơn, còn HTML có thể khiến câu trả lời của AI trở thành một tài liệu “xem được, thao tác được, và hiểu trực quan được”.

Đó cũng chính là lý do cốt lõi khiến Shihipar trước đó cho rằng HTML tốt hơn Markdown: HTML có thể mang SVG biểu đồ, mã hóa màu, CSS kiểu dáng, khối cảnh báo, neo trong trang, thành phần tương tác và bảng so sánh đặt cạnh nhau. Với các tình huống như tài liệu kỹ thuật, phân tích lỗ hổng, trực quan hóa dữ liệu, giải thích hướng dẫn, HTML có thể chuyển đổi lượng thông tin chữ mà trước đây người đọc phải từ từ tiêu hóa thành một tài liệu trực quan mà chỉ nhìn là nhận ra được cấp độ, rủi ro và mối quan hệ.

Karpathy: con người thiên về nhập bằng giọng nói, nhưng lại thiên về xuất bằng thị giác

Quan điểm mới của Karpathy không chỉ xoay quanh HTML, mà là câu chuyện về tương lai của giao diện AI.

Ông cho rằng, ở phía đầu vào, con người có thể thích tương tác bằng giọng nói và AI hơn, vì nói chuyện là cách biểu đạt tự nhiên và chi phí thấp. Nhưng ở phía đầu ra, thứ con người thật sự ưu tiên lại là thông tin thị giác, bao gồm hình ảnh, hoạt ảnh và video.

Lý do là não người có khoảng một phần ba được dùng để xử lý thông tin thị giác. Vì vậy, khi năng lực của AI tăng lên, AI không nên chỉ đóng gói câu trả lời thành văn bản, mà nên dần tiến tới đầu ra thị giác mật độ cao và trực giác hơn.

Điều này làm rõ hơn tầm quan trọng của HTML. HTML không phải là điểm kết thúc, mà có thể là giai đoạn chuyển tiếp để AI đi từ đầu ra bằng chữ sang đầu ra được trực quan hóa. Nó thể hiện hình ảnh, bố cục và tương tác tốt hơn Markdown, nhưng lại ổn định và kiểm soát được hơn so với việc tạo hoàn toàn bằng mạng nơ-ron sinh ra video hoặc mô phỏng.

Karpathy tiếp tục suy đoán rằng, dù các công nghệ liên quan hiện vẫn chưa tồn tại, xét về dài hạn, điểm đến của đầu ra AI có thể là một dạng video hoặc nội dung mô phỏng tương tác được tạo trực tiếp bằng mô hình khuếch tán.

Nói cách khác, tương lai AI có thể không chỉ là “trả cho bạn một đoạn văn”, cũng không chỉ là “giúp bạn tạo một tài liệu HTML”, mà là trực tiếp tạo ra các cảnh thị giác có thể tương tác, có thể khám phá và có thể biến đổi động. Người dùng có thể thao tác trong đó, xem sự thay đổi và hiểu quan hệ nhân quả—giống như việc kết hợp video hướng dẫn, mô phỏng tương tác và giao diện tạo sinh tức thời.

Tuy nhiên, Karpathy cũng thừa nhận rằng vẫn còn rất nhiều câu hỏi mở ở đây. Đặc biệt là cách kết hợp những “sản phẩm Software 1.0” truyền thống trong kỹ thuật phần mềm—chẳng hạn mô phỏng tương tác, linh kiện frontend, mô hình toán học—với các hình ảnh nơ-ron, hoạt ảnh hoặc video do mô hình khuếch tán tạo ra, vẫn chưa có câu trả lời chín muồi.

Bài viết này Karpathy: AI không nên dừng ở Markdown! HTML là tương lai, hồi kết là các bối cảnh tương tác có thể khám phá xuất hiện sớm nhất tại Chuỗi tin ABMedia.

Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ bên thứ ba và không đại diện cho quan điểm hoặc ý kiến của Gate. Nội dung hiển thị trên trang này chỉ mang tính chất tham khảo và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Gate không đảm bảo tính chính xác hoặc đầy đủ của thông tin và sẽ không chịu trách nhiệm cho bất kỳ tổn thất nào phát sinh từ việc sử dụng thông tin này. Đầu tư vào tài sản ảo tiềm ẩn rủi ro cao và chịu biến động giá đáng kể. Bạn có thể mất toàn bộ vốn đầu tư. Vui lòng hiểu rõ các rủi ro liên quan và đưa ra quyết định thận trọng dựa trên tình hình tài chính và khả năng chấp nhận rủi ro của riêng bạn. Để biết thêm chi tiết, vui lòng tham khảo Tuyên bố miễn trừ trách nhiệm.
Bình luận
0/400
Không có bình luận