Meituan LongCat открывает исходный код VitaBench 2.0 для долгосрочного моделирования пользователей

Как сообщает Jin10, Meituan LongCat сегодня открыла исходный код VitaBench 2.0 — первого бенчмарка для оценки агентов больших языковых моделей в сценариях долгосрочного, реального динамического взаимодействия с пользователями. Этот бенчмарк систематически оценивает способность LLM к персонализации и проактивности в условиях продолжительного вовлечения пользователей.
Дисклеймер: Информация на этой странице может быть получена из источников третьих сторон и предоставляется только для ознакомления. Она не отражает взгляды или мнения Gate и не является финансовой, инвестиционной или юридической рекомендацией. Торговля виртуальными активами связана с высоким риском. Пожалуйста, не основывайте свои решения исключительно на данных этой страницы. Подробнее смотрите в Дисклеймере.
комментарий
0/400
Нет комментариев