OpenAI ra mắt GPT-Realtime-2: mang suy luận GPT-5 vào voice agent, nâng context lên 128K

ChainNewsAbmedia

2026-05-08 04:04:44

OpenAI ngày 7 tháng 5 (giờ Mỹ) tại hội nghị nhà phát triển đã công bố 3 mô hình giọng nói Realtime mới: GPT-Realtime-2, GPT-Realtime-Translate, GPT-Realtime-Whisper, tất cả đều mở cho nhà phát triển thông qua Realtime API. Thông báo chính thức của OpenAI cho biết GPT-Realtime-2 là mô hình giọng nói đầu tiên của OpenAI có năng lực suy luận cỡ GPT-5, có thể suy luận tức thời trong hội thoại giọng nói, gọi công cụ, xử lý sửa đổi và duy trì nhịp hội thoại tự nhiên.

GPT-Realtime-2: context từ 32K lên 128K, có thể điều chỉnh 5 mức độ suy luận

Nâng cấp cốt lõi của GPT-Realtime-2:

context window: 32K lên 128K tokens

Độ mạnh suy luận có thể điều chỉnh: minimal, low, medium, high, xhigh (5 mức)

Bài test Big Bench Audio: suy luận high đạt 96,6%, trong khi GPT-Realtime-1.5 thế hệ trước là 81,4%

Chỉ thị Audio MultiChallenge: suy luận xhigh đạt 48,5%, so với 34,7% của thế hệ trước

Context lớn hơn và độ mạnh suy luận có thể điều chỉnh cho phép nhà phát triển chuyển đổi giữa “rẻ, nhanh” và “tư duy sâu” tùy theo từng tình huống—dịch vụ khách hàng đơn giản có thể dùng chế độ minimal để kiểm soát chi phí, còn các tác vụ phức tạp chuyển sang xhigh để đổi lấy chất lượng suy luận cỡ GPT-5.

Đồng thời phát hành 2 mô hình chuyên dụng: Translate cho dịch đa ngôn ngữ và Whisper cho chuyển biên ghi âm tức thời

Trong đợt ra mắt lần này, 3 mô hình được phân công như sau:

GPT-Realtime-Translate: dịch giọng nói đa ngôn ngữ tức thời, hỗ trợ 70 ngôn ngữ đầu vào, 13 ngôn ngữ đầu ra

GPT-Realtime-Whisper: chuyển biên ghi âm streaming độ trễ thấp, vừa nói vừa xuất chữ, phù hợp cho phụ đề thời gian thực, ghi chép cuộc họp, và bản ghi chép từng chữ trong lớp học

GPT-Realtime-2: agent hội thoại đầy đủ, có thể suy luận, dùng công cụ, thực thi hành động

Translate và Whisper là sự chuyên biệt hóa mô hình cho các ứng dụng giọng nói cụ thể—độ nhạy về độ trễ và chi phí của dịch thuật và chuyển biên cao hơn so với hội thoại đa dụng, nên việc dùng mô hình riêng giúp tối ưu các chỉ số tương ứng.

Định giá: GPT-Realtime-2 là 32 đô la Mỹ cho mỗi 1 triệu lượt nhập, 64 đô la Mỹ cho mỗi 1 triệu lượt xuất

Cấu trúc giá của 3 mô hình:

GPT-Realtime-2: 32 đô la Mỹ cho mỗi 1 triệu lượt nhập giọng nói, input cached 0,40 đô la Mỹ, output 64 đô la Mỹ

GPT-Realtime-Translate: 0,034 đô la Mỹ mỗi phút

GPT-Realtime-Whisper: 0,017 đô la Mỹ mỗi phút

Các sự kiện cụ thể có thể theo dõi tiếp theo: GPT-Realtime-2 đang được ứng dụng thực tế trong môi trường sản xuất với voice agent như thế nào, mức độ “cannibalization” so với mô hình giọng nói GPT-4o hiện có ra sao, và phản ứng đối đầu của các đối thủ như Anthropic, Google.

Bài viết OpenAI ra mắt GPT-Realtime-2: đưa suy luận GPT-5 vào voice agent, nâng context lên 128K sớm nhất xuất hiện tại 鏈新聞 ABMedia.

Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ bên thứ ba và không đại diện cho quan điểm hoặc ý kiến của Gate. Nội dung hiển thị trên trang này chỉ mang tính chất tham khảo và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Gate không đảm bảo tính chính xác hoặc đầy đủ của thông tin và sẽ không chịu trách nhiệm cho bất kỳ tổn thất nào phát sinh từ việc sử dụng thông tin này. Đầu tư vào tài sản ảo tiềm ẩn rủi ro cao và chịu biến động giá đáng kể. Bạn có thể mất toàn bộ vốn đầu tư. Vui lòng hiểu rõ các rủi ro liên quan và đưa ra quyết định thận trọng dựa trên tình hình tài chính và khả năng chấp nhận rủi ro của riêng bạn. Để biết thêm chi tiết, vui lòng tham khảo Tuyên bố miễn trừ trách nhiệm.