由 cựu lãnh đạo cấp cao OpenAI Mira Murati và John Schulman (đồng sáng lập OpenAI) cùng lập nên, công ty khởi nghiệp AI Thinking Machines được định giá hơn 100 tỷ USD, hôm thứ Ba đã ra mắt phiên bản xem trước của mô hình AI song công toàn phần đầu tiên có thể “nói trong khi nghe”, độ trễ xuống tới 0,4 giây, thách thức các mô hình tương tác thời gian thực hiện có giữa người và máy.

(Thinking Machines Lab được Nvidia rót vốn triển khai Vera Rubin để nâng hiệu năng cho mô hình tiên tiến)

Mô hình mới của Thinking Machines: phá vỡ mô hình cũ luân phiên nói chuyện

Với tất cả các mô hình AI chủ đạo hiện nay, cách vận hành đều là “người dùng nhập vào, mô hình chờ, rồi phản hồi”. Mira Murati (cựu CTO OpenAI) và John Schulman (đồng sáng lập OpenAI) cho rằng quá trình trả lời theo lượt này giống như nhắn tin, chứ không phải đối thoại thực sự. Nay hai người liên kết cùng nhau sáng lập Thinking Machines Lab, vào ngày 11/5 vừa chính thức công bố phiên bản xem trước nghiên cứu của mô hình “tương tác (Interaction Models)” hoàn toàn mới, nhằm thay đổi tận gốc hiện trạng đó.

People talk, listen, watch, think, and collaborate at the same time, in real time. We’ve designed an AI that works with people the same way.

We share our approach, early results, and a quick look at our model in action. pic.twitter.com/uxl1InS6Ay

— Thinking Machines (@thinkymachines) May 11, 2026

Thinking Machines cho biết, các mô hình AI hiện tại đang “cảm nhận hiện thực” theo kiểu đơn luồng: người dùng chưa nói hết, mô hình chỉ có thể chờ; mô hình chưa tạo xong, việc cảm nhận bị đóng băng. Thiết kế này trở thành nút thắt trong phối hợp người-máy, khiến con người không thể cộng tác tự nhiên và trôi chảy với AI như khi nói chuyện với người thật.

Hai người tin rằng giải pháp không nằm ở việc vá bằng các thành phần bên ngoài cho kiến trúc cũ, mà là huấn luyện từ đầu một mô hình nguyên sinh hỗ trợ tương tác thời gian thực.

Kiến trúc song công toàn phần: AI biết “làm một lúc hai việc”

Mô hình được Thinking Machines công bố mang tên TML-Interaction-Small, là mô hình kiến trúc hỗn hợp chuyên gia (MoE) với 2760 tỷ tham số, nhưng thực tế khi chạy chỉ kích hoạt 120 tỷ tham số. Hệ thống xử lý xen kẽ đầu vào và đầu ra sinh thành theo từng mốc 200 mili giây, không đặt bất kỳ ranh giới lượt nào do con người quy định, qua đó hiện thực đúng nghĩa tương tác “song công toàn phần (Full Duplex)”, giống như gọi điện thoại chứ không phải nhắn tin.

Hệ thống sử dụng thiết kế hai mô hình: “mô hình tương tác” chịu trách nhiệm cho hội thoại tức thời, bắt lời và phản hồi; “mô hình nền” thì ở hậu trường xử lý bất đồng bộ các suy luận phức tạp, tìm kiếm trên mạng và gọi công cụ, rồi tích hợp liền mạch kết quả vào cuộc đối thoại đang diễn ra. Nhờ đó, AI có thể vừa nói hoặc vừa nghe, đồng thời lặng lẽ hoàn tất các tác vụ tìm kiếm hoặc sinh biểu đồ được giao.

Bộ kiểm thử chuẩn: vượt toàn diện OpenAI và Google

Thông báo cho biết, trong bộ test chuẩn đo chất lượng tương tác AI FD-bench, độ trễ chuyển lượt của TML-Interaction-Small là 0,40 giây, gần tốc độ phản ứng tự nhiên của con người, vượt xa Google Gemini-3.1-flash-live ở 0,57 giây, cũng như GPT-realtime-2.0 ở 1,18 giây.

Màu đậm thể hiện người đứng đầu cho mỗi danh mục, màu nhạt thể hiện người đứng đầu trong nhóm mô hình tức thời

Khi đến bộ kiểm thử riêng do nhóm thiết kế cho năng lực tương tác mới này, ở nhiệm vụ “TimeSpeak”, TML-Interaction-Small đạt độ đúng 64,7%, trong khi GPT-realtime-2.0 chỉ 4,3%; ở nhiệm vụ “CueSpeak” (kích hoạt bằng giọng nói), tỷ lệ của mô hình trước là 81,7% còn mô hình sau chỉ 2,9%; ở nhiệm vụ “RepCount-A” (đếm số lượng theo hình ảnh), mô hình trước đạt 35,4% còn mô hình sau gần như bằng không (1,3%).

Thinking Machines cho biết, mọi mô hình thương mại hiện tại đều không thể hoàn thành một cách có ý nghĩa các nhiệm vụ này, kể cả các mô hình cấp cao kiểu “thinking” (suy nghĩ) của OpenAI và Google.

Tiềm năng ứng dụng doanh nghiệp: từ chăm sóc khách hàng đến giám sát an ninh

Bên cạnh trải nghiệm hội thoại hằng ngày tự nhiên hơn, giá trị tiềm năng của công nghệ này trong bối cảnh doanh nghiệp cũng đáng được chú ý.

Lấy ví dụ trong ngành sản xuất hoặc phòng thí nghiệm: một AI có thể giám sát video tức thời có thể phát cảnh báo chủ động ngay khi phát hiện vi phạm an toàn, thay vì phải chờ nhân viên lên tiếng hỏi. Trong lĩnh vực chăm sóc khách hàng bằng giọng nói, hệ thống hiện nay thường có độ trễ xử lý 1 đến 2 giây—thường chính là điểm đau trực tiếp nhất của người dùng, và tốc độ phản hồi 0,4 giây được kỳ vọng sẽ giải quyết tận gốc vấn đề này.

Hiện tại, TML-Interaction-Small và mô hình nền đi kèm chỉ mở cho một số đối tác nhất định để nghiên cứu xem trước; phiên bản công khai dự kiến sẽ ra mắt vào cuối năm nay. Thinking Machines đồng thời công bố sẽ khởi động chương trình tài trợ nghiên cứu, khuyến khích cộng đồng học thuật phát triển thêm các khung đánh giá chất lượng tương tác mới.

Từ dịch chuyển nhân tài đến tăng trưởng bền vững: bước tiếp theo của Thinking Machines Lab

Thinking Machines Lab được thành lập vào năm 2025, và ngay từ đầu năm nay đã thu hút sự chú ý từ bên ngoài khi nhiều thành viên sáng lập rời đi sang Meta, đồng thời chiêu mộ Soumith Chintala—người sáng lập PyTorch kiêm kỹ sư kỳ cựu của Meta—làm Giám đốc công nghệ. Hiện quy mô nhân viên đã tăng lên khoảng 130 người.

(Đào Andrew Tulloch của Zuckerberg: anh là ai khi từ chối lời mời 1,5 tỷ USD trong 6 năm từ Meta để rồi thất bại?)

Trong tháng 3 năm nay, công ty cũng công bố hợp tác với Nvidia để triển khai ít nhất 1 gigawatt hệ thống thế hệ mới Vera Rubin, đồng thời mở rộng hợp tác với Google Cloud nhằm thúc đẩy nghiên cứu huấn luyện mô hình tiên tiến và học tăng cường.

Bài viết này 100% khởi nghiệp Thinking Machines ra mắt mô hình AI tương tác tức thời, nhấn mạnh “nói-trong-khi-nghe-làm-việc” lần đầu xuất hiện trên Chuỗi tin ABMedia.

Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ bên thứ ba và không đại diện cho quan điểm hoặc ý kiến của Gate. Nội dung hiển thị trên trang này chỉ mang tính chất tham khảo và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Gate không đảm bảo tính chính xác hoặc đầy đủ của thông tin và sẽ không chịu trách nhiệm cho bất kỳ tổn thất nào phát sinh từ việc sử dụng thông tin này. Đầu tư vào tài sản ảo tiềm ẩn rủi ro cao và chịu biến động giá đáng kể. Bạn có thể mất toàn bộ vốn đầu tư. Vui lòng hiểu rõ các rủi ro liên quan và đưa ra quyết định thận trọng dựa trên tình hình tài chính và khả năng chấp nhận rủi ro của riêng bạn. Để biết thêm chi tiết, vui lòng tham khảo Tuyên bố miễn trừ trách nhiệm.