Согласно последней статье Penn State, UCSC и Amazon под названием «Harness Updating Is Not Harness Benefit: Disentangling Evolution Capabilities in Self-Evolving LLM Agents», исследователи обнаружили, что у ИИ-агентов возможности обновления «оборудования» демонстрируют паттерн «уплощения» на разных моделях. Переходное тестирование показало, что приросты производительности от обновлений «оборудования» у разных моделей отличаются всего на 3,1%, а даже модель Qwen3.5-9B масштаба 9B формирует обновления, структурно эквивалентные флагману Claude Opus 4.6.
При этом способность агентов извлекать пользу из обновлённого «оборудования» проявляет немонотонные тренды. Слабые модели вроде Qwen3-32B сталкиваются с двумя критическими режимами отказа: «equipment activation failure» — с коэффициентом загрузки навыков только 25,1% против 96% у более сильных моделей — и «equipment compliance failure», когда соблюдение инструкций резко падает с 0,52 до 0,13 при продолжительном выполнении. Исследователь ИИ Элвис Сар отметил схожие закономерности в экспериментах со своим агентом для кодинга, предполагая, что вычислительные бюджеты стоит в первую очередь направлять на агенты выполнения, а не на эволюционные движки.