上海拠点のAIラボStepFunは今週、StepAudio 2.5 Realtimeをリリースした。中国語と英語をサポートするエンドツーエンドのリアルタイム音声モデルだ。同社のテストによれば、このモデルは2026年4月に実施された5つの音声AIベンチマークすべてで首位を獲得し、OpenAIのGPT Realtime 1.5やGoogleのGemini Liveを上回った。
パラ言語理解ベンチマーク――感情や話速のような音響特徴の知覚を0〜100のスケールで測る指標――では、StepAudioは82.18を獲得し、GPT Realtime 1.5の80.46およびGemini Liveの58.05を上回った。人手による評価テストでは、StepAudioは80.41を達成し、GPT Realtime 1.5は68.01、Gemini Liveは67.16だった。StepFunは、ロールプレイに特化した強化学習でキャラクターの一貫性を長時間の会話中に維持できるように、100万規模のパーソナデータセットでモデルを訓練した。