Menurut Beating, OpenAI merilis tiga model suara di Realtime API-nya: GPT-Realtime-2 untuk percakapan suara dengan penalaran, GPT-Realtime-Translate untuk terjemahan real-time, dan GPT-Realtime-Whisper untuk transkripsi streaming. GPT-Realtime-2 adalah model suara pertama OpenAI dengan kemampuan penalaran setara GPT-5, memperluas jendela konteks dari 32K menjadi 128K token, serta mendukung hingga 1-2 jam percakapan padat.
GPT-Realtime-2 meningkatkan 15,2% pada benchmark Big Bench Audio dan 13,8% pada Audio MultiChallenge dibandingkan GPT-Realtime-1.5. GPT-Realtime-Translate mendukung 70+ bahasa masukan untuk menerjemahkan ke 13 bahasa keluaran. Harga: GPT-Realtime-2 sebesar $32 per 1 juta token masukan dan $64 per 1 juta token keluaran; Translate sebesar $0,034 per menit; Whisper sebesar $0,017 per menit.