De acordo com os benchmarks mais recentes da Datadog e da Carnegie Mellon, o GPT-5 atingiu 62,7% de precisão no teste ARFBench, ficando aquém dos especialistas humanos do domínio, com 72,7%. O ARFBench é o primeiro benchmark de IA construído a partir de 63 incidentes reais de produção, com 750 perguntas de escolha múltipla que cobrem 142 métricas de monitorização e 5,38 milhões de pontos de dados — sem dados sintéticos.
Os modelos de IA têm mais dificuldade no raciocínio entre métricas (questões do Tier III), em que o GPT-5 obteve apenas 47,5% de F1. Um modelo teórico-oráculo especialista, que combina IA e julgamento humano, alcança 87,2% de precisão, evidenciando como a colaboração pode superar qualquer uma das abordagens isoladamente. O modelo híbrido da Datadog, Toto-1.0-QA-Experimental, liderou o ranking com 63,9% de precisão, superando o GPT-5 na identificação de anomalias.
Notícias relacionadas
Figura F.03 81 horas consecutivas sem triagem por pessoas 101.391 encomendas
Malta oferece ChatGPT Plus gratuito a toda a população por um ano: primeira parceria a nível estatal da OpenAI
A Anthropic discute a corrida de IA entre os EUA e a China: a liderança da China pode vir a ser uma ameaça global; três recomendações para reforçar a “muralha” dos EUA