GPT-5 atinge 62,7% de acurácia em incidentes de produção, mas fica abaixo da referência de especialistas de 72,7%

De acordo com os mais recentes benchmarks da Datadog e da Carnegie Mellon, o GPT-5 alcançou 62,7% de acurácia no teste ARFBench, ficando aquém dos especialistas humanos em domínio, que obtiveram 72,7%. O ARFBench é o primeiro benchmark de IA construído a partir de 63 incidentes reais de produção, contendo 750 questões de múltipla escolha que cobrem 142 métricas de monitoramento e 5,38 milhões de pontos de dados — sem dados sintéticos.

Os modelos de IA têm mais dificuldade em raciocínio entre métricas (questões do Nível III), em que o GPT-5 registrou apenas 47,5% de F1. Um modelo teórico do tipo oráculo especialista, combinando IA e julgamento humano, atinge 87,2% de acurácia, ilustrando como a colaboração pode superar qualquer uma das abordagens isoladamente. O modelo híbrido da Datadog, Toto-1.0-QA-Experimental, liderou o ranking com 63,9% de acurácia, superando o GPT-5 em identificação de anomalias.

Isenção de responsabilidade: as informações nesta página podem ter origem em fontes terceiras e servem apenas como referência. Não representam as opiniões da Gate e não constituem orientação financeira, de investimentos ou jurídica. A negociação de ativos virtuais envolve alto risco. Não tome decisões baseando-se apenas nas informações desta página. Para mais detalhes, consulte a Isenção de responsabilidade.
Comentário
0/400
Sem comentários