Ramp Labs presenta una nueva solución para compartir la memoria entre múltiples agentes, con una reducción máxima del consumo de tokens del 65%

GateNews

Noticias de Gate, 11 de abril, la empresa de infraestructura de IA Ramp Labs publicó resultados de investigación titulados «Latent Briefing», que logran un intercambio de memoria eficiente entre sistemas multiagente mediante la compresión directa de la caché KV de modelos de gran tamaño, reduciendo de forma significativa el consumo de Tokens sin perder precisión. En las arquitecturas multiagente más comunes, el orquestador (Orchestrator) descompone las tareas y llama repetidamente al modelo del trabajador (Worker); a medida que la cadena de inferencia se alarga, el uso de Tokens se expande de manera exponencial. La idea central de Latent Briefing es usar el mecanismo de atención para identificar en el contexto las partes realmente clave, eliminando la información redundante directamente en la capa de representación, en lugar de depender de resúmenes de LLM que son lentos o de la recuperación RAG con poca estabilidad. En el benchmark LongBench v2, el método mostró un rendimiento sobresaliente: el consumo de Tokens del modelo Worker se reduce en 65%, el ahorro de Tokens en documentos de longitud media (32k a 100k) alcanza una mediana del 49%, la precisión global mejora alrededor de 3 puntos porcentuales frente a la línea base, y el tiempo adicional por cada compresión es de solo aproximadamente 1.7 segundos, lo que acelera el proceso unas 20 veces frente al algoritmo original. El experimento utilizó Claude Sonnet 4 como orquestador y Qwen3-14B como modelo de trabajador, cubriendo escenarios de documentos de múltiples tipos, como artículos académicos, documentos legales, novelas e informes gubernamentales. La investigación también encontró que el umbral de compresión óptimo varía según la dificultad de la tarea y la longitud del documento: para tareas difíciles conviene una compresión más agresiva para filtrar el ruido de razonamiento especulativo, mientras que para documentos largos es más adecuado una compresión ligera para conservar información clave dispersa.

Aviso legal: La información de esta página puede proceder de terceros y no representa los puntos de vista ni las opiniones de Gate. El contenido que aparece en esta página es solo para fines informativos y no constituye ningún tipo de asesoramiento financiero, de inversión o legal. Gate no garantiza la exactitud ni la integridad de la información y no se hace responsable de ninguna pérdida derivada del uso de esta información. Las inversiones en activos virtuales conllevan riesgos elevados y están sujetas a una volatilidad significativa de los precios. Podrías perder todo el capital invertido. Asegúrate de entender completamente los riesgos asociados y toma decisiones prudentes de acuerdo con tu situación financiera y tu tolerancia al riesgo. Para obtener más información, consulta el Aviso legal.
Comentar
0/400
Sin comentarios