Mensagem do Gate News, 27 de abril — Logan Kilpatrick, gestor sénior de produto na Google DeepMind e responsável de produto para o Google AI Studio, declarou no X que todas as empresas que criam produtos baseados em IA devem estabelecer os seus próprios benchmarks personalizados para medir o desempenho dos modelos de IA. Ele descreveu isto como um método para fazer com que as melhorias do modelo "beneficiem desproporcionadamente a sua empresa" e instou os fundadores e líderes empresariais a "começar amanhã."
A maioria das empresas atualmente depende de quadros de liderança públicos para selecionar modelos de IA, mas estes medem capacidades gerais que muitas vezes não se alinham com cenários empresariais específicos. Kilpatrick citou o exemplo de uma empresa de revisão de contratos cuja principal preocupação é a precisão da extração de cláusulas — uma capacidade que não existe nos benchmarks públicos, tornando impossível avaliar o desempenho do modelo nessa tarefa. Os benchmarks personalizados oferecem duas vantagens principais: primeiro, permitem que as empresas avaliem cada atualização do modelo face às suas próprias tarefas de negócio e selecionem o modelo que melhor funciona no seu caso de uso real, em vez do modelo com melhor classificação no geral; segundo, permitem que as empresas partilhem estes conjuntos de testes com os fornecedores de modelos, impulsionando a otimização contínua nas áreas que importam para o seu negócio.
Kilpatrick referiu que empresas como a Zapier e a Sierra já estão a implementar esta abordagem, afirmando que "há muito alpha que pode ser criado aqui."