Google Research представляет ReasoningBank: ИИ-агенты учатся стратегиям рассуждений на успехах и неудачах

Сообщение Gate News, 22 апреля — Google Research выпустила ReasoningBank, фреймворк агентной памяти, который позволяет агентам, управляемым большими языковыми моделями, непрерывно учиться после развертывания. Фреймворк извлекает универсальные стратегии рассуждений как из успешных, так и из неудачных опытов выполнения задач, сохраняя их в банке памяти для поиска и выполнения при выполнении похожих будущих задач. Соответствующая работа была опубликована в ICLR, а код выложен в открытый доступ на GitHub.

ReasoningBank улучшает два существующих подхода: Synapse, который фиксирует полные траектории действий, но имеет ограниченную переносимость из-за мелкозернистой детализации, и Agent Workflow Memory, который обучается только на успешных случаях. ReasoningBank вносит два ключевых изменения: хранит «паттерны рассуждений» вместо «последовательностей действий», при этом каждая запись памяти содержит структурированные поля для заголовка, описания и содержимого; и включает траектории неудач в обучение. Фреймворк использует модель для самопроверки траекторий выполнения, превращая неудачные опыты в правила против типичных ошибок. Например, правило «нажимай кнопку Load More, когда она видна» развивается в «сначала проверь идентификатор текущей страницы, избегай циклов бесконечной прокрутки, затем нажми load more».

В статье также вводится Memory-aware Test-time Scaling (MaTTS), которое выделяет дополнительные вычисления во время вывода, чтобы исследовать несколько траекторий и сохранять результаты в банке памяти. Параллельное расширение запускает несколько различных траекторий для одной и той же задачи, уточняя более надежные стратегии за счет самосравнения; последовательное расширение итеративно уточняет одну траекторию, сохраняя промежуточные рассуждения в памяти.

В задачах браузера WebArena и задачах по программированию SWE-Bench-Verified с использованием Gemini 2.5 Flash в качестве ReAct-агента ReasoningBank достигла на 8,3% более высокой доли успешных исходов на WebArena и на 4,6% более высокой на SWE-Bench-Verified по сравнению с базовой версией без памяти, сократив среднее число шагов на задачу примерно на 3. Добавление MaTTS с параллельным расширением (k=5) дополнительно улучшило успешность на WebArena на 3 процентных пункта и уменьшило число шагов еще на 0,4.

Отказ от ответственности: Информация на этой странице может поступать от третьих лиц и не отражает взгляды или мнения Gate. Содержание, представленное на этой странице, предназначено исключительно для справки и не является финансовой, инвестиционной или юридической консультацией. Gate не гарантирует точность или полноту информации и не несет ответственности за любые убытки, возникшие от использования этой информации. Инвестиции в виртуальные активы несут высокие риски и подвержены значительной ценовой волатильности. Вы можете потерять весь инвестированный капитал. Пожалуйста, полностью понимайте соответствующие риски и принимайте разумные решения, исходя из собственного финансового положения и толерантности к риску. Для получения подробностей, пожалуйста, обратитесь к Отказу от ответственности.
комментарий
0/400
Нет комментариев