Google DeepMind AI Co-Mathematician Mencapai 47,9% di FrontierMath Tier 4, Mengalahkan GPT-5.5 Pro, Menyelesaikan 3 Masalah yang Sebelumnya Tidak Bisa Dipecahkan

Google DeepMind merilis asisten AI ko-matematikawan, asisten riset matematika multi-agen, dengan meraih akurasi 47,9% pada benchmark FrontierMath Tier 4, melampaui rekor sebelumnya GPT-5.5 Pro sebesar 39,6% pada 9 Mei. Sistem ini menyelesaikan 23 dari 48 soal, termasuk 3 yang gagal dipecahkan oleh semua model sebelumnya. Dibangun di atas Gemini 3.1 Pro, arsitekturnya menggunakan desain hierarkis dengan agen koordinator proyek yang mendistribusikan tugas ke sub-agen untuk menangani penelusuran literatur, pemrograman, dan penalaran, dengan beberapa agen pengulas memvalidasi bukti sebelum diajukan.

Epoch AI melakukan pengujian buta, mencegah tim DeepMind melihat soal, dengan setiap pertanyaan diberi waktu 48 jam untuk komputasi. Dalam penerapan dunia nyata, matematikawan Marc Lackenby menggunakan sistem tersebut untuk menyelesaikan dugaan terbuka dari Kourovka Notebook, yang menunjukkan nilai riset praktisnya. Sistem ini saat ini tersedia untuk sejumlah matematikawan terbatas dalam uji beta.

Penafian: Informasi di halaman ini dapat berasal dari pihak ketiga dan tidak mewakili pandangan atau opini Gate. Konten yang ditampilkan hanya untuk tujuan referensi dan bukan merupakan nasihat keuangan, investasi, atau hukum. Gate tidak menjamin keakuratan maupun kelengkapan informasi dan tidak bertanggung jawab atas kerugian apa pun yang timbul akibat penggunaan informasi ini. Investasi aset virtual memiliki risiko tinggi dan rentan terhadap volatilitas harga yang signifikan. Anda dapat kehilangan seluruh modal yang diinvestasikan. Harap pahami sepenuhnya risiko yang terkait dan buat keputusan secara bijak berdasarkan kondisi keuangan serta toleransi risiko Anda sendiri. Untuk detail lebih lanjut, silakan merujuk ke Penafian.
Komentar
0/400
Tidak ada komentar