Pengumuman Gate News, 29 April — Peneliti OpenAI Sébastien Bubeck dan Ernest Ryu mengatakan bahwa sistem AI dapat melakukan sebagian besar pekerjaan riset manusia dalam dua tahun, dengan menyajikan matematika sebagai ukuran kemajuan AI yang jelas. Tidak seperti tes performa yang masih samar, masalah matematika menawarkan verifikasi yang presisi: jawaban bisa benar atau salah, tanpa ruang untuk ambiguitas.
Bubeck mencatat bahwa pemikiran AI yang sejati membutuhkan kemampuan bertahan melalui rangkaian penalaran yang panjang. Satu kesalahan dalam argumen berisi banyak langkah dapat meruntuhkan seluruh pembuktian, sehingga deteksi dan koreksi kesalahan di tengah proses menjadi tujuan utama bagi model tingkat lanjut. Laboratorium internal OpenAI telah menghasilkan lebih dari sepuluh teorema benar-benar baru yang dapat dipublikasikan di jurnal-jurnal teratas bidang kombinatorika, yang menunjukkan bahwa AI kini menghasilkan karya yang benar-benar orisinal dan terobosan, bukan sekadar menyusun ulang makalah yang sudah ada.
Namun, terobosan ilmiah yang berkelanjutan menuntut fokus yang konsisten selama berminggu-minggu pengujian. Sistem yang ada saat ini masih memerlukan pengawasan manusia yang ketat untuk memandu dan memverifikasi setiap perubahan arah. Bubeck menggunakan “AGI time” untuk mengukur berapa lama sebuah model dapat meniru pemikiran manusia secara independen; sistem yang ada saat ini bekerja kira-kira selama beberapa hari hingga satu minggu, sementara target industri adalah berminggu-minggu atau berbulan-bulan agar memungkinkan kerja otonom di bidang seperti biologi.
Memori jangka panjang sangat penting untuk masa depan ini. Jendela chat standar membatasi kedalaman—pembuktian matematika yang kompleks sering kali melebihi 50 halaman—sementara repositori kode menunjukkan bagaimana sesi kerja yang lebih panjang memungkinkan pemecahan masalah yang lebih mendalam. Ketika AI memperoleh kemandirian dan memori, keahlian manusia menjadi semakin berharga, bukan semakin tidak. Para pekerja harus mempertahankan pengetahuan fondasional yang mendalam untuk menantang dan memverifikasi jawaban mesin, dan organisasi perlu sistem filter otomatis serta sistem reputasi baru untuk menjaga kepercayaan di tengah banjir riset yang dibantu AI.