Точность GPT-5.4 падает с 100% до 54% на ARC-AGI после многократного суммирования памяти

GateNews

2026-05-12 11:29:43

Исследование памяти агента от Beating, проведённое Диланом Чжаном, аспирантом Университета Иллинойса, показало, что многократное резюмирование опыта модели может ухудшать производительность, а не улучшать её. В задачах ARC-AGI GPT-5.4 достиг 100% точности на 19 проблемах без памяти, но после нескольких раундов компрессии памяти на основе правильных траекторий решения точность упала до 54%. Аналогично, в задачах покупок WebShop метод AWM показал результат 0,64 с 8 экспертными траекториями, но снизился до 0,20 при 128 траекториях, вернувшись к базовому уровню. Исследование предполагает, что проблема связана с чрезмерным резюмированием: каждый шаг абстракции теряет конкретные детали и смешивает зависящие от задачи правила в универсальные подсказки, в итоге ухудшая производительность модели.

Посмотреть источник

Отказ от ответственности: Информация на этой странице может поступать от третьих лиц и не отражает взгляды или мнения Gate. Содержание, представленное на этой странице, предназначено исключительно для справки и не является финансовой, инвестиционной или юридической консультацией. Gate не гарантирует точность или полноту информации и не несет ответственности за любые убытки, возникшие от использования этой информации. Инвестиции в виртуальные активы несут высокие риски и подвержены значительной ценовой волатильности. Вы можете потерять весь инвестированный капитал. Пожалуйста, полностью понимайте соответствующие риски и принимайте разумные решения, исходя из собственного финансового положения и толерантности к риску. Для получения подробностей, пожалуйста, обратитесь к Отказу от ответственности.

Связанные статьи

Artificial Analysis выпускает бенчмарк для кодирующих агентов; Zhipu GLM-5.1 занимает первое место среди моделей с открытым исходным кодом

ИИ-агент Новости индустрии ИИ

Artificial Analysis сегодня выпустила новый Index Coding Agent, чтобы оценить, как AI-модели показывают себя при совместном использовании с агентными фреймворками на ключевых бенчмарках, включая SWE-Bench-Pro-Hard-AA, Terminal-Bench v2 и SWE-Atlas-QnA. Zhipu GLM-5.1 заняла первое место среди открытых моделей в ходе оценки, продемонстрировав лидирующие результаты в реальных сценариях работы кодинговых агентов.

GateNews3м назад

Yuntianliyifei представляет 3D-стековую архитектуру памяти в разработке чипов для вывода (inference)

Новости индустрии ИИ

Согласно раскрытиям для отношений с инвесторами от 12 мая, разрабатываемый инференс-чип Yuntianliyifei использует архитектуру GPNPU в качестве основной технологической дорожной карты. Ключевые технические моменты включают универсальную программируемость на уровне GPGPU, совместимую с распространённой экосистемой CUDA, оптимизированные NPU-ядра для повышения эффективности инференса, а также 3D-стековую архитектуру памяти, предназначенную для увеличения пропускной способности и снижения задержек д

GateNews3м назад

Платформа B.AI добавила 8 756 пользователей 11 мая, DeepSeek-V4 обеспечивает 60% потребления токенов

Новости индустрии ИИ

По данным B.AI, платформа добавила 8 756 новых пользователей 11 мая, при этом доля пользователей из числа основных платящих, которые используют платежи Stripe, достигла 69,0%, что отражает улучшение удержания традиционных разработчиков и пользователей уровня производства. Серия моделей DeepSeek-V4 обеспечила почти 60% объёма потребления токенов, задействуя сверхнизкую задержку, высокую конкурентность и возможности по пропускной способности, чтобы выступать в качестве ключевого вычислительного дв

GateNews28м назад

На этой неделе ожидается шквал ключевых макро-катализаторов: от публикации CPI до всестороннего разбора рассмотрения закона CLARITY

Макроэкономика Денежно-кредитная политика Геополитика Индексы Акции Товары Форекс Новости индустрии ИИ

В середине мая 2026 года криптовалютный рынок переживает крайне редкое окно макрочувствительности. Данные по CPI США за апрель будут опубликованы 12 мая, саммит Трамп—Си в Пекине запланирован на 13–15 мая, а сенатский банковский комитет рассмотрит законопроект CLARITY (Закон о регулировании рынков цифровых активов) 14 мая. Три независимых, но тесно связанных события за каких-то четыре дня концентрируются, образуя поэтапный стресс-тест для механизма ценообразования криптоактивов. Ежедневный кален

GateInstantTrends50м назад

AI-стартап для голосовых ассистентов Vapi завершил $50M раунд серии B, возглавляемый Peak XV Partners

Новости индустрии ИИ

По данным TechCrunch, Vapi, стартап в сфере AI-голосов, завершил раунд Series B на 50 миллионов долларов, возглавленный Peak XV Partners, с постинвестиционной оценкой примерно в 500 миллионов долларов. Ring, дочерняя компания Amazon, внедрила Vapi для обработки 100% входящих звонков после оценки более 40 поставщиков AI-голоса, что помогло провести раунд финансирования.

GateNews1ч назад

комментарий

0/400

Нет комментариев