Berita Gate, 27 April — Logan Kilpatrick, manajer produk senior di Google DeepMind dan pemimpin produk untuk Google AI Studio, menyatakan di X bahwa setiap perusahaan yang membangun produk berbasis AI harus menetapkan tolok ukur kustomnya sendiri untuk mengukur performa model AI. Ia menyebutnya sebagai cara untuk membuat peningkatan model “memberi manfaat yang secara tidak proporsional bagi perusahaan Anda” dan mendesak para pendiri serta pemimpin bisnis untuk “mulai besok.”
Kebanyakan perusahaan saat ini mengandalkan papan peringkat publik untuk memilih model AI, tetapi papan peringkat ini mengukur kemampuan umum yang sering tidak selaras dengan skenario bisnis tertentu. Kilpatrick mencontohkan perusahaan peninjau kontrak yang paling peduli pada akurasi ekstraksi klausul—sebuah kemampuan yang tidak ada dalam tolok ukur publik, sehingga tidak mungkin menilai performa model pada tugas tersebut. Tolok ukur kustom menawarkan dua keunggulan utama: pertama, tolok ukur ini memungkinkan perusahaan mengevaluasi setiap pembaruan model terhadap tugas bisnis mereka sendiri dan memilih model yang berkinerja terbaik pada kasus penggunaan mereka yang sebenarnya, bukan model dengan peringkat tertinggi secara keseluruhan; kedua, tolok ukur ini memungkinkan perusahaan membagikan set pengujian tersebut kepada penyedia model, sehingga mendorong optimasi berkelanjutan di area yang penting bagi bisnis mereka.
Kilpatrick mencatat bahwa perusahaan seperti Zapier dan Sierra sudah menerapkan pendekatan ini, dengan mengatakan bahwa “ada banyak alpha yang bisa diciptakan di sini.”
Related News
MediaTek meraih pesanan besar Google TPU generasi ke-8! ASIC memanas, mendorong tiga saham konsep mendapatkan manfaat
JPMorgan: Tokenisasi Akan Mengubah Industri Dana, Tapi “Kasus Penggunaan yang Baik” Masih Butuh Bertahun-tahun
AI Agent kini bisa secara mandiri mereproduksi makalah akademis yang kompleks: Mollick mengatakan kesalahan lebih banyak berasal dari teks asli manusia, bukan dari AI