Согласно последней статье Penn State, UCSC и Amazon под названием «Harness Updating Is Not Harness Benefit: Disentangling Evolution Capabilities in Self-Evolving LLM Agents», исследователи обнаружили, что у ИИ-агентов возможности обновления «оборудования» демонстрируют паттерн «уплощения» на разных моделях. Переходное тестирование показало, что приросты производительности от обновлений «оборудования» у разных моделей отличаются всего на 3,1%, а даже модель Qwen3.5-9B масштаба 9B формирует обновления, структурно эквивалентные флагману Claude Opus 4.6.

При этом способность агентов извлекать пользу из обновлённого «оборудования» проявляет немонотонные тренды. Слабые модели вроде Qwen3-32B сталкиваются с двумя критическими режимами отказа: «equipment activation failure» — с коэффициентом загрузки навыков только 25,1% против 96% у более сильных моделей — и «equipment compliance failure», когда соблюдение инструкций резко падает с 0,52 до 0,13 при продолжительном выполнении. Исследователь ИИ Элвис Сар отметил схожие закономерности в экспериментах со своим агентом для кодинга, предполагая, что вычислительные бюджеты стоит в первую очередь направлять на агенты выполнения, а не на эволюционные движки.

Посмотреть источник

Дисклеймер: Информация на этой странице может быть получена из источников третьих сторон и предоставляется только для ознакомления. Она не отражает взгляды или мнения Gate и не является финансовой, инвестиционной или юридической рекомендацией. Торговля виртуальными активами связана с высоким риском. Пожалуйста, не основывайте свои решения исключительно на данных этой страницы. Подробнее смотрите в Дисклеймере.

Связанные новости

5ч назад

Акции Tencent растут на 8% после доклада о разработке AI-агента для WeChat

6ч назад

Tencent тестирует AI-агентов в WeChat в июне, включает выполнение задач между мини-приложениями

13ч назад

Alphabet планирует привлечь собственный капитал на сумму 80 миллиардов долларов для инфраструктуры ИИ 2 июня

06-01 12:55

OpenAI демонстрирует AI-операционную систему для телефона без традиционных приложений на Voice Hack Night

06-01 03:21

Дженсен Хуанг определяет архитектуру ИИ-агентов на GTC Taipei 2026: LLM-плюс оркестрационный движок

Детальный анализ