Baseten представила метод сжатия Still KV Cache, обеспечивающий 200-кратную степень сжатия

Исследовательская команда Beating Baseten представила Still — метод сжатия KV cache, который обеспечивает до 200-кратного сжатия за один прямой проход без онлайн-оптимизации и обновлений градиентов. Still использует легковесные Perceiver-компрессоры — размером примерно 1% параметров базовой модели — и встраивает их в каждый слой Transformer, применяя cross-attention ко всему KV cache, чтобы напрямую формировать сжатый cache. Тестирование на моделях Qwen и Gemma с окнами контекста от 8k до 64k и коэффициентами сжатия от 8x до 200x показало, что Still сохранила высокую точность и при этом обошла сопоставимые методы вроде SnapKV, H2O и KV-Distill на бенчмарке RULER.
Дисклеймер: Информация на этой странице может быть получена из источников третьих сторон и предоставляется только для ознакомления. Она не отражает взгляды или мнения Gate и не является финансовой, инвестиционной или юридической рекомендацией. Торговля виртуальными активами связана с высоким риском. Пожалуйста, не основывайте свои решения исключительно на данных этой страницы. Подробнее смотрите в Дисклеймере.
комментарий
0/400
Нет комментариев