Baseten presenta un método de compresión de caché KV aún más para lograr una tasa de compresión 200x

Según Beating, el equipo de investigación de Baseten dio a conocer Still, un método de compresión de KV cache que logra hasta 200x de compresión en una sola pasada hacia adelante sin optimización en línea ni actualizaciones de gradiente. Still integra compresores Perceiver ligeros, con un tamaño de aproximadamente el 1% de los parámetros del modelo base, en cada capa del Transformer, aplicando atención cruzada al KV cache completo para generar directamente el cache comprimido. Probado en modelos Qwen y Gemma en ventanas de contexto de 8k a 64k con tasas de compresión de 8x a 200x, Still mantuvo alta precisión y superó a métodos comparables como SnapKV, H2O y KV-Distill en el benchmark RULER.
Aviso legal: La información en esta página puede provenir de fuentes de terceros y es solo para referencia. No representa las opiniones ni puntos de vista de Gate y no constituye asesoramiento financiero, de inversión ni legal. El comercio de activos virtuales implica un alto riesgo. No te bases únicamente en la información presentada en esta página para tomar decisiones. Para más detalles, consulta el Aviso legal.
Comentar
0/400
Sin comentarios