Baseten представила метод сжатия Still KV Cache, обеспечивающий 200-кратную степень сжатия

2026-06-12 10:53:27

Исследовательская команда Beating Baseten представила Still — метод сжатия KV cache, который обеспечивает до 200-кратного сжатия за один прямой проход без онлайн-оптимизации и обновлений градиентов. Still использует легковесные Perceiver-компрессоры — размером примерно 1% параметров базовой модели — и встраивает их в каждый слой Transformer, применяя cross-attention ко всему KV cache, чтобы напрямую формировать сжатый cache. Тестирование на моделях Qwen и Gemma с окнами контекста от 8k до 64k и коэффициентами сжатия от 8x до 200x показало, что Still сохранила высокую точность и при этом обошла сопоставимые методы вроде SnapKV, H2O и KV-Distill на бенчмарке RULER.

Посмотреть источник

Дисклеймер: Информация на этой странице может быть получена из источников третьих сторон и предоставляется только для ознакомления. Она не отражает взгляды или мнения Gate и не является финансовой, инвестиционной или юридической рекомендацией. Торговля виртуальными активами связана с высоким риском. Пожалуйста, не основывайте свои решения исключительно на данных этой страницы. Подробнее смотрите в Дисклеймере.

Связанные новости

1ч назад

Moonshot AI выпустила кодовую модель Kimi K2.7: прирост производительности 21,8%, релиз версии с высокой скоростью — 15 июня

2ч назад

Tencent Cloud снижает цены на модели MiniMax-M3 и Hy-MT2-Pro до 66,67%, начиная с 12 июня

3ч назад

Google Antigravity запускает дашборд квот и сбрасывает еженедельные лимиты Gemini

19ч назад

Google привлекает Samsung для производства ИИ-чипов Icefish нового поколения с использованием 2-нм техпроцесса

06-11 06:13

Anthropic отменяет молчаливое выступление Claude, понижает уровень, приносит извинения после критики со стороны сообщества

Детальный анализ