Сообщение Gate News, 27 апреля — Логан Килпатрик, старший менеджер по продуктам в Google DeepMind и руководитель продуктового направления Google AI Studio, заявил в X, что каждая компания, создающая продукты на основе ИИ, должна разработать свои собственные индивидуальные бенчмарки для измерения эффективности ИИ-моделей. Он описал это как метод, позволяющий тому, чтобы улучшения модели «несоразмерно приносили выгоду вашей компании», и призвал основателей и руководителей бизнеса «начать уже завтра».
Большинство компаний сейчас полагаются на публичные лидерборды для выбора ИИ-моделей, но они измеряют общие возможности, которые часто не соответствуют конкретным сценариям бизнеса. Килпатрик привел пример компании по проверке контрактов, которая больше всего обеспокоена точностью извлечения пунктов — возможностью, отсутствующей в публичных бенчмарках, из-за чего невозможно оценить эффективность модели при выполнении этой задачи. Индивидуальные бенчмарки дают два ключевых преимущества: во-первых, они позволяют компаниям оценивать каждое обновление модели по своим бизнес-задачам и выбирать ту модель, которая лучше всего работает в их реальном сценарии использования, а не ту, что занимает наивысшее место в общем рейтинге; во-вторых, они позволяют компаниям делиться этими наборами тестов с поставщиками моделей, что способствует постоянной оптимизации в тех областях, которые важны для их бизнеса.
Килпатрик отметил, что такие компании, как Zapier и Sierra, уже внедряют этот подход, заявив, что «здесь можно создать много „альфы“».
Related News
MediaTek заполучила крупный заказ Google на восьмое поколение TPU! ASIC стимулирует рост в трех секторальных акциях, которые получат выгоду
JPMorgan: Токенизация изменит индустрию фондов, но «хорошие варианты использования» появятся через несколько лет
ИИ-агент уже может независимо воспроизводить сложные научные статьи: Mollick считает, что ошибки чаще бывают в человеческом исходном тексте, а не в ИИ