Menurut Beating, Step Audio 2.5 Realtime, sebuah model suara real-time end-to-end oleh Step Cosmos, diluncurkan di API platform open pada April 2026. Model ini menekankan percakapan yang alami dengan persona karakter yang dapat disesuaikan serta persepsi paralinguistik (nada, jeda, desah).
Dalam pengujian resmi di lima dimensi, Step Audio 2.5 Realtime meraih peringkat pertama di semua kategori. Skor evaluasi subjektif (percakapan di aplikasi telepon pengguna nyata) mencapai 80,41, dibanding 68,01 untuk GPT-Realtime-1.5 dan 67,16 untuk Gemini Live. Skor benchmark Voice Q&A mencapai 79,80, hampir 1,5 kali skor GPT-Realtime-1.5 sebesar 53,20. Harga API: 10 yuan per 1 juta token input (2 yuan dengan cache hits), 70 yuan per 1 juta token output, dengan perkiraan panggilan suara berkelanjutan sebesar 3,8 yuan per jam.