Fable 5 Falha em Todas as Tarefas Mais Difíceis no Exame ALE da UC Berkeley, Custando 4-12x Mais do que os Concorrentes

De acordo com a UC Berkeley RDI, os mais recentes resultados da avaliação Agents' Last Exam (ALE) divulgados esta semana mostram uma taxa de sucesso de 0% nas tarefas mais difíceis, que exigem raciocínio sustentado e grande profundidade de especialização, em todos os agentes de IA testados, incluindo o recém-lançado Fable 5. Nos custos de API por tarefa, o Fable 5 cobrou 15,70 dólares — 4 vezes mais do que o GPT-5.5, que custou 3,80 dólares, e 12 vezes mais do que o Composer 2.5, que custou 1,33 dólares. A avaliação abrangeu 55 domínios profissionais com mais de 1.500 tarefas validadas por especialistas e concluiu que os agentes falham com mais frequência por declararem sucesso prematuramente, sem validar os resultados.
Aviso legal: As informações contidas nesta página podem provir de fontes externas e têm caráter meramente informativo. Não refletem os pontos de vista nem as opiniões da Gate e não constituem qualquer tipo de aconselhamento financeiro, de investimento ou jurídico. A negociação de ativos virtuais envolve um risco elevado. Não se baseie exclusivamente nas informações contidas nesta página ao tomar decisões. Para mais detalhes, consulte o Aviso legal.
Comentar
0/400
Nenhum comentário