OpenAI ngày 7 tháng 5 (giờ Mỹ) tại hội nghị nhà phát triển đã công bố 3 mô hình giọng nói Realtime mới: GPT-Realtime-2, GPT-Realtime-Translate, GPT-Realtime-Whisper, tất cả đều mở cho nhà phát triển thông qua Realtime API. Thông báo chính thức của OpenAI cho biết GPT-Realtime-2 là mô hình giọng nói đầu tiên của OpenAI có năng lực suy luận cỡ GPT-5, có thể suy luận tức thời trong hội thoại giọng nói, gọi công cụ, xử lý sửa đổi và duy trì nhịp hội thoại tự nhiên.
GPT-Realtime-2: context từ 32K lên 128K, có thể điều chỉnh 5 mức độ suy luận
Nâng cấp cốt lõi của GPT-Realtime-2:
context window: 32K lên 128K tokens
Độ mạnh suy luận có thể điều chỉnh: minimal, low, medium, high, xhigh (5 mức)
Bài test Big Bench Audio: suy luận high đạt 96,6%, trong khi GPT-Realtime-1.5 thế hệ trước là 81,4%
Chỉ thị Audio MultiChallenge: suy luận xhigh đạt 48,5%, so với 34,7% của thế hệ trước
Context lớn hơn và độ mạnh suy luận có thể điều chỉnh cho phép nhà phát triển chuyển đổi giữa “rẻ, nhanh” và “tư duy sâu” tùy theo từng tình huống—dịch vụ khách hàng đơn giản có thể dùng chế độ minimal để kiểm soát chi phí, còn các tác vụ phức tạp chuyển sang xhigh để đổi lấy chất lượng suy luận cỡ GPT-5.
Đồng thời phát hành 2 mô hình chuyên dụng: Translate cho dịch đa ngôn ngữ và Whisper cho chuyển biên ghi âm tức thời
Trong đợt ra mắt lần này, 3 mô hình được phân công như sau:
GPT-Realtime-Translate: dịch giọng nói đa ngôn ngữ tức thời, hỗ trợ 70 ngôn ngữ đầu vào, 13 ngôn ngữ đầu ra
GPT-Realtime-Whisper: chuyển biên ghi âm streaming độ trễ thấp, vừa nói vừa xuất chữ, phù hợp cho phụ đề thời gian thực, ghi chép cuộc họp, và bản ghi chép từng chữ trong lớp học
GPT-Realtime-2: agent hội thoại đầy đủ, có thể suy luận, dùng công cụ, thực thi hành động
Translate và Whisper là sự chuyên biệt hóa mô hình cho các ứng dụng giọng nói cụ thể—độ nhạy về độ trễ và chi phí của dịch thuật và chuyển biên cao hơn so với hội thoại đa dụng, nên việc dùng mô hình riêng giúp tối ưu các chỉ số tương ứng.
Định giá: GPT-Realtime-2 là 32 đô la Mỹ cho mỗi 1 triệu lượt nhập, 64 đô la Mỹ cho mỗi 1 triệu lượt xuất
Cấu trúc giá của 3 mô hình:
GPT-Realtime-2: 32 đô la Mỹ cho mỗi 1 triệu lượt nhập giọng nói, input cached 0,40 đô la Mỹ, output 64 đô la Mỹ
GPT-Realtime-Translate: 0,034 đô la Mỹ mỗi phút
GPT-Realtime-Whisper: 0,017 đô la Mỹ mỗi phút
Các sự kiện cụ thể có thể theo dõi tiếp theo: GPT-Realtime-2 đang được ứng dụng thực tế trong môi trường sản xuất với voice agent như thế nào, mức độ “cannibalization” so với mô hình giọng nói GPT-4o hiện có ra sao, và phản ứng đối đầu của các đối thủ như Anthropic, Google.
Bài viết OpenAI ra mắt GPT-Realtime-2: đưa suy luận GPT-5 vào voice agent, nâng context lên 128K sớm nhất xuất hiện tại 鏈新聞 ABMedia.
Related News
NVIDIA công bố Nemotron 3 Nano Omni mã nguồn mở đa phương thức
OpenAI DevDay 2026 sẽ diễn ra vào ngày 29/9 tại San Francisco
OpenAI ra mắt ChatGPT Futures: 26 sinh viên khóa đầu tiên nhận học bổng 10.000 USD, trải dài trên hơn 20 trường đại học
OpenAI công bố giao thức mạng siêu máy tính MRC! Hợp tác với Nvidia, AMD, Microsoft để xây dựng hạ tầng Stargate
ChatGPT ra mắt Excel và Google Sheets: GPT-5.5 đăng nhập trực tiếp vào bảng tính, Copilot và Gemini đối đầu ba bên