DeepSeek V4 Meraih Skor Sempurna pada Putnam-2025, Menyamai Axiom dalam Penalaran Matematika Formal

Berita Gerbang, 24 April — DeepSeek V4 telah mempublikasikan hasil dari evaluasi penalaran matematis formal, meraih skor sempurna 120/120 pada Putnam-2025, menyamai Axiom untuk posisi pertama.

Dalam rezim praktis yang menggunakan LeanExplore dan constrained sampling, V4-Flash-Max mencetak 81.00 pada tolok ukur Putnam-200 Pass@8, secara signifikan mengungguli Seed-2.0-Prover (35.50), Gemini 3 Pro (26.50), dan Seed-1.5-Prover (26.50). Hasil rezim frontier menunjukkan V4 berada di depan Seed-1.5-Prover (110/120) dan Aristotle (100/120).

V4 menggunakan pendekatan hibrida penalaran formal-informal: penalaran informal menghasilkan solusi bahasa alami kandidat, self-verification menyaring hasil, dan agen formal menyelesaikan pembuktian yang ketat di Lean. Hasil rezim frontier memanfaatkan penskalaan komputasi skala besar, sementara skor rezim praktis lebih mencerminkan kemampuan penerapan standar.

Penafian: Informasi di halaman ini dapat berasal dari pihak ketiga dan tidak mewakili pandangan atau opini Gate. Konten yang ditampilkan hanya untuk tujuan referensi dan bukan merupakan nasihat keuangan, investasi, atau hukum. Gate tidak menjamin keakuratan maupun kelengkapan informasi dan tidak bertanggung jawab atas kerugian apa pun yang timbul akibat penggunaan informasi ini. Investasi aset virtual memiliki risiko tinggi dan rentan terhadap volatilitas harga yang signifikan. Anda dapat kehilangan seluruh modal yang diinvestasikan. Harap pahami sepenuhnya risiko yang terkait dan buat keputusan secara bijak berdasarkan kondisi keuangan serta toleransi risiko Anda sendiri. Untuk detail lebih lanjut, silakan merujuk ke Penafian.
Komentar
0/400
Tidak ada komentar