Phòng thí nghiệm AI có trụ sở tại Thượng Hải StepFun đã phát hành StepAudio 2.5 Realtime vào tuần này, một mô hình giọng nói thời gian thực đầu cuối hỗ trợ tiếng Trung và tiếng Anh. Theo thử nghiệm của StepFun, mô hình này đã dẫn đầu cả năm bài benchmark AI giọng nói được kiểm tra trong tháng 4/2026, vượt OpenAI's GPT Realtime 1.5 và Google's Gemini Live.
Ở bài benchmark hiểu ngôn ngữ cận kề—đo cảm nhận các đặc trưng âm thanh như cảm xúc và tốc độ nói trên thang 0–100—StepAudio đạt 82,18 so với GPT Realtime 1.5 là 80,46 và Gemini Live là 58,05. Trong thử nghiệm đánh giá bằng con người, StepAudio đạt 80,41 so với GPT Realtime 1.5 là 68,01 và Gemini Live là 67,16. StepFun đã huấn luyện mô hình trên bộ dữ liệu persona quy mô một triệu, kèm theo học tăng cường chuyên cho roleplay để duy trì tính nhất quán nhân vật trong các cuộc trò chuyện kéo dài.