Microsoft MDASH menduduki puncak peringkat CyberGym, tingkat reproduksi kerentanannya mencapai 88,4%

robot
Pembuatan abstrak sedang berlangsung

AIMPACT Pesan, 14 Mei (UTC+8), Peringkat Pembaruan Kerangka Penilaian Keamanan Siber CyberGym, Microsoft MDASH (sistem multi-model) menduduki peringkat pertama dengan tingkat keberhasilan reproduksi kerentanan sebesar 88,4%, mengalahkan Anthropic Agent (83,1%) dan OpenAI Agent (GPT-5.5, 81,8%). Kerangka ini mencakup 1507 contoh pengujian dasar, meliputi kerentanan historis dari 188 proyek perangkat lunak besar. MDASH tidak hanya mereproduksi kerentanan yang diketahui, tetapi juga menemukan 35 kerentanan zero-day dan 17 patch yang tidak lengkap secara historis. CyberGym dibangun berdasarkan kerentanan nyata yang ditemukan oleh OSS-Fuzz, dengan lingkungan evaluasi mencakup basis kode sebelum patch, dan agen harus melakukan penalaran terhadap seluruh basis kode (ribuan file, jutaan baris kode) untuk menghasilkan bukti konsep. Tim Keamanan Kode Otonom Microsoft, termasuk Taesoo Kim, mendapatkan ucapan terima kasih. (Sumber: InFoQ)

4-4,08%
ANTHROPIC-4,16%
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Disematkan