Vals AI Rilis Benchmark Finance Agent v2; GPT-5.5 Raih Skor 51,76%, Semua Model Turun di Bawah 40% di Bawah Penilaian Ketat

ALL1,81%

Menurut Beating, perusahaan penilai AI Vals AI merilis benchmark Finance Agent generasi kedua v2 pada 14 Mei, menguji alur kerja analisis keuangan melalui 927 pertanyaan yang ditinjau oleh para ahli. GPT-5.5 memuncaki peringkat dengan tingkat akurasi 51,76%, disusul ketat oleh Claude Opus 4.7 (51,51%) dan Claude Sonnet 4.6 (51,03%). Pengujian menuntut model untuk secara mandiri menemukan bagian-bagian relevan di ratusan halaman dokumen laporan keuangan 10-K dan 10-Q serta menyelesaikan perhitungan multi-langkah dengan angka antara yang presisi.

Dengan standar penilaian yang ketat yang mengharuskan jawaban benar sepenuhnya, semua model terdepan mencatat tingkat akurasi di bawah 40%, sementara kategori tersulit—financial modeling dan precedent analysis—hanya mencapai maksimal 23%. Di antara model lainnya, Kimi K2.6 menempati peringkat kelima dengan 44,87%, diikuti GLM 5.1 (44,79%) dan DeepSeek V4 (44,08%). Dibandingkan versi sebelumnya ketika Opus 4.7 mencetak 64,4%, penurunan yang signifikan menegaskan bahwa meski AI dapat menangani penelusuran yang sederhana, AI masih jauh dari menggantikan analis manusia dalam domain keuangan yang kompleks dan menuntut ketelitian numerik yang ketat.

Penafian: Informasi di halaman ini dapat berasal dari pihak ketiga dan tidak mewakili pandangan atau opini Gate. Konten yang ditampilkan hanya untuk tujuan referensi dan bukan merupakan nasihat keuangan, investasi, atau hukum. Gate tidak menjamin keakuratan maupun kelengkapan informasi dan tidak bertanggung jawab atas kerugian apa pun yang timbul akibat penggunaan informasi ini. Investasi aset virtual memiliki risiko tinggi dan rentan terhadap volatilitas harga yang signifikan. Anda dapat kehilangan seluruh modal yang diinvestasikan. Harap pahami sepenuhnya risiko yang terkait dan buat keputusan secara bijak berdasarkan kondisi keuangan serta toleransi risiko Anda sendiri. Untuk detail lebih lanjut, silakan merujuk ke Penafian.
Komentar
0/400
Tidak ada komentar