Tin tức Gate ngày 27 tháng 4 — Logan Kilpatrick, quản lý sản phẩm cấp cao tại Google DeepMind và là người phụ trách sản phẩm của Google AI Studio, cho biết trên X rằng mọi công ty đang xây dựng các sản phẩm dựa trên AI đều nên thiết lập các bộ chuẩn tùy chỉnh của riêng mình để đo hiệu suất của mô hình AI. Ông mô tả đây là một cách để làm cho các cải tiến mô hình "mang lại lợi ích một cách không tương xứng cho công ty của bạn" và kêu gọi những người sáng lập cùng lãnh đạo doanh nghiệp hãy "bắt đầu từ ngày mai."
Hầu hết các công ty hiện nay dựa vào các bảng xếp hạng công khai để lựa chọn mô hình AI, nhưng những bảng này đo các năng lực chung thường không khớp với các kịch bản kinh doanh cụ thể. Kilpatrick nêu ví dụ về một công ty rà soát hợp đồng vốn đặc biệt quan tâm đến độ chính xác trích xuất điều khoản — một năng lực không có trong các bộ chuẩn công khai, khiến việc đánh giá hiệu suất mô hình trên nhiệm vụ đó là không thể. Các bộ chuẩn tùy chỉnh mang lại hai lợi thế chính: thứ nhất, chúng cho phép các công ty đánh giá từng lần cập nhật mô hình dựa trên các nhiệm vụ kinh doanh của chính họ và chọn mô hình hoạt động tốt nhất trong tình huống sử dụng thực tế của mình thay vì mô hình được xếp hạng cao nhất nói chung; thứ hai, chúng cho phép các công ty chia sẻ các bộ kiểm thử này với các nhà cung cấp mô hình, thúc đẩy tối ưu hóa liên tục trong những lĩnh vực quan trọng đối với doanh nghiệp của họ.
Kilpatrick cho biết các công ty như Zapier và Sierra đã đang triển khai cách tiếp cận này, khẳng định rằng "có rất nhiều alpha có thể được tạo ra ở đây."