由 cựu lãnh đạo cấp cao OpenAI Mira Murati và John Schulman (đồng sáng lập OpenAI) cùng lập nên, công ty khởi nghiệp AI Thinking Machines được định giá hơn 100 tỷ USD, hôm thứ Ba đã ra mắt phiên bản xem trước của mô hình AI song công toàn phần đầu tiên có thể “nói trong khi nghe”, độ trễ xuống tới 0,4 giây, thách thức các mô hình tương tác thời gian thực hiện có giữa người và máy.
(Thinking Machines Lab được Nvidia rót vốn triển khai Vera Rubin để nâng hiệu năng cho mô hình tiên tiến)
Mô hình mới của Thinking Machines: phá vỡ mô hình cũ luân phiên nói chuyện
Với tất cả các mô hình AI chủ đạo hiện nay, cách vận hành đều là “người dùng nhập vào, mô hình chờ, rồi phản hồi”. Mira Murati (cựu CTO OpenAI) và John Schulman (đồng sáng lập OpenAI) cho rằng quá trình trả lời theo lượt này giống như nhắn tin, chứ không phải đối thoại thực sự. Nay hai người liên kết cùng nhau sáng lập Thinking Machines Lab, vào ngày 11/5 vừa chính thức công bố phiên bản xem trước nghiên cứu của mô hình “tương tác (Interaction Models)” hoàn toàn mới, nhằm thay đổi tận gốc hiện trạng đó.
People talk, listen, watch, think, and collaborate at the same time, in real time. We’ve designed an AI that works with people the same way.
We share our approach, early results, and a quick look at our model in action. pic.twitter.com/uxl1InS6Ay
— Thinking Machines (@thinkymachines) May 11, 2026
Thinking Machines cho biết, các mô hình AI hiện tại đang “cảm nhận hiện thực” theo kiểu đơn luồng: người dùng chưa nói hết, mô hình chỉ có thể chờ; mô hình chưa tạo xong, việc cảm nhận bị đóng băng. Thiết kế này trở thành nút thắt trong phối hợp người-máy, khiến con người không thể cộng tác tự nhiên và trôi chảy với AI như khi nói chuyện với người thật.
Hai người tin rằng giải pháp không nằm ở việc vá bằng các thành phần bên ngoài cho kiến trúc cũ, mà là huấn luyện từ đầu một mô hình nguyên sinh hỗ trợ tương tác thời gian thực.
Kiến trúc song công toàn phần: AI biết “làm một lúc hai việc”
Mô hình được Thinking Machines công bố mang tên TML-Interaction-Small, là mô hình kiến trúc hỗn hợp chuyên gia (MoE) với 2760 tỷ tham số, nhưng thực tế khi chạy chỉ kích hoạt 120 tỷ tham số. Hệ thống xử lý xen kẽ đầu vào và đầu ra sinh thành theo từng mốc 200 mili giây, không đặt bất kỳ ranh giới lượt nào do con người quy định, qua đó hiện thực đúng nghĩa tương tác “song công toàn phần (Full Duplex)”, giống như gọi điện thoại chứ không phải nhắn tin.
Hệ thống sử dụng thiết kế hai mô hình: “mô hình tương tác” chịu trách nhiệm cho hội thoại tức thời, bắt lời và phản hồi; “mô hình nền” thì ở hậu trường xử lý bất đồng bộ các suy luận phức tạp, tìm kiếm trên mạng và gọi công cụ, rồi tích hợp liền mạch kết quả vào cuộc đối thoại đang diễn ra. Nhờ đó, AI có thể vừa nói hoặc vừa nghe, đồng thời lặng lẽ hoàn tất các tác vụ tìm kiếm hoặc sinh biểu đồ được giao.
Bộ kiểm thử chuẩn: vượt toàn diện OpenAI và Google
Thông báo cho biết, trong bộ test chuẩn đo chất lượng tương tác AI FD-bench, độ trễ chuyển lượt của TML-Interaction-Small là 0,40 giây, gần tốc độ phản ứng tự nhiên của con người, vượt xa Google Gemini-3.1-flash-live ở 0,57 giây, cũng như GPT-realtime-2.0 ở 1,18 giây.
Màu đậm thể hiện người đứng đầu cho mỗi danh mục, màu nhạt thể hiện người đứng đầu trong nhóm mô hình tức thời
Khi đến bộ kiểm thử riêng do nhóm thiết kế cho năng lực tương tác mới này, ở nhiệm vụ “TimeSpeak”, TML-Interaction-Small đạt độ đúng 64,7%, trong khi GPT-realtime-2.0 chỉ 4,3%; ở nhiệm vụ “CueSpeak” (kích hoạt bằng giọng nói), tỷ lệ của mô hình trước là 81,7% còn mô hình sau chỉ 2,9%; ở nhiệm vụ “RepCount-A” (đếm số lượng theo hình ảnh), mô hình trước đạt 35,4% còn mô hình sau gần như bằng không (1,3%).
Thinking Machines cho biết, mọi mô hình thương mại hiện tại đều không thể hoàn thành một cách có ý nghĩa các nhiệm vụ này, kể cả các mô hình cấp cao kiểu “thinking” (suy nghĩ) của OpenAI và Google.
Tiềm năng ứng dụng doanh nghiệp: từ chăm sóc khách hàng đến giám sát an ninh
Bên cạnh trải nghiệm hội thoại hằng ngày tự nhiên hơn, giá trị tiềm năng của công nghệ này trong bối cảnh doanh nghiệp cũng đáng được chú ý.
Lấy ví dụ trong ngành sản xuất hoặc phòng thí nghiệm: một AI có thể giám sát video tức thời có thể phát cảnh báo chủ động ngay khi phát hiện vi phạm an toàn, thay vì phải chờ nhân viên lên tiếng hỏi. Trong lĩnh vực chăm sóc khách hàng bằng giọng nói, hệ thống hiện nay thường có độ trễ xử lý 1 đến 2 giây—thường chính là điểm đau trực tiếp nhất của người dùng, và tốc độ phản hồi 0,4 giây được kỳ vọng sẽ giải quyết tận gốc vấn đề này.
Hiện tại, TML-Interaction-Small và mô hình nền đi kèm chỉ mở cho một số đối tác nhất định để nghiên cứu xem trước; phiên bản công khai dự kiến sẽ ra mắt vào cuối năm nay. Thinking Machines đồng thời công bố sẽ khởi động chương trình tài trợ nghiên cứu, khuyến khích cộng đồng học thuật phát triển thêm các khung đánh giá chất lượng tương tác mới.
Từ dịch chuyển nhân tài đến tăng trưởng bền vững: bước tiếp theo của Thinking Machines Lab
Thinking Machines Lab được thành lập vào năm 2025, và ngay từ đầu năm nay đã thu hút sự chú ý từ bên ngoài khi nhiều thành viên sáng lập rời đi sang Meta, đồng thời chiêu mộ Soumith Chintala—người sáng lập PyTorch kiêm kỹ sư kỳ cựu của Meta—làm Giám đốc công nghệ. Hiện quy mô nhân viên đã tăng lên khoảng 130 người.
(Đào Andrew Tulloch của Zuckerberg: anh là ai khi từ chối lời mời 1,5 tỷ USD trong 6 năm từ Meta để rồi thất bại?)
Trong tháng 3 năm nay, công ty cũng công bố hợp tác với Nvidia để triển khai ít nhất 1 gigawatt hệ thống thế hệ mới Vera Rubin, đồng thời mở rộng hợp tác với Google Cloud nhằm thúc đẩy nghiên cứu huấn luyện mô hình tiên tiến và học tăng cường.
Bài viết này 100% khởi nghiệp Thinking Machines ra mắt mô hình AI tương tác tức thời, nhấn mạnh “nói-trong-khi-nghe-làm-việc” lần đầu xuất hiện trên Chuỗi tin ABMedia.
Related News
Google: Mô hình ngôn ngữ lớn được dùng cho các cuộc tấn công thực tế, AI có thể vượt qua cơ chế bảo mật xác thực hai lớp
Cerebras IPO thúc đẩy chuỗi cung ứng hưởng lợi: Câu chuyện nguồn điện của Vicor và chủ đề cấp phép IP nguồn điện cho AI
Thông báo chính thức của OpenAI: DeployCo chính thức được thành lập, vốn đầu tư ban đầu hơn 4 tỷ USD
OpenAI cũng đi theo kiểu cố vấn như Palantir? Bỏ 4 tỷ thành lập công ty độc lập, cử FDE vào doanh nghiệp để tích hợp sâu quy trình AI
OpenAI ra mắt công ty triển khai 4 tỷ USD: nhận Tomoro