¿Milla Jovovich hace con IA un “proyecto de puntuación perfecta”? Prueba del desarrollador: ¿realmente vale la pena o es un bombo publicitario exagerado?

El sistema de memoria con IA MemPalace, desarrollado con la participación de Milla Jovovich, afirma haber obtenido una puntuación perfecta en las pruebas y se volvió viral, pero la comunidad lo desmintió, acusándolo de hacer trampa en las pruebas y de inducir a error con los datos. Las pruebas reales encontraron que los resultados están exagerados y que hay muchos errores; el equipo ya reconoció las fallas y está trabajando en la reparación.

Milla Jovovich crea el “palacio de memoria” con IA, y atrae la atención del mundo

Ayer (4/7), en el mundo de la IA hubo una gran noticia: la actriz de Hollywood Milla Jovovich (Milla Jovovich), conocida por películas como “Resident Evil” y “El quinto elemento”, junto con el desarrollador Ben Sigman, ayudó a crear con Claude Code el sistema de memoria con IA de código abierto “MemPalace”.

Durante un momento, se difundió ampliamente la idea de “una estrella de Hollywood que cruza de industria y logra un proyecto de puntuación perfecta”. Hasta la fecha, MemPalace también ha acumulado más de 20k estrellas en GitHub, pero rápidamente generó dudas en la comunidad de desarrolladores: ¿de verdad tiene contenido o es puro marketing?

Primero, hablemos de la motivación detrás del nacimiento de MemPalace. La documentación oficial afirma que quieren resolver la limitación actual de que el contenido de las conversaciones entre usuarios y la IA, el proceso de toma de decisiones y las discusiones sobre la arquitectura suelen desaparecer después de terminar la sesión de trabajo, lo que hace que meses de esfuerzo se vayan a caida a cero.

Para resolver este problema, MemPalace utiliza una arquitectura espacial para almacenar recuerdos, clasificando la información de manera clara en alas que representan a las personas o proyectos, y en estructuras de distintos niveles como pasillos, habitaciones y cajones, conservando el texto original de las conversaciones para futuras búsquedas semánticas.

El equipo de desarrollo afirma que MemPalace obtiene un 100% perfecto en el criterio de evaluación de memoria a largo plazo LongMemEval, y alcanza una precisión de 96.6% sin llamar a ninguna API externa; además, puede ejecutarse completamente en local, sin necesidad de suscribirse a servicios en la nube, y viene con el supuesto sistema de dialecto AAAK que puede lograr una compresión sin pérdidas 30 veces.

Fuente de imagen: GitHub La estrella de cine de Hollywood Milla Jovovich crea un palacio de memoria con IA, atrayendo la atención del mundo

Los competidores y la comunidad cuestionan a la vez: métodos de prueba y fallas en la publicidad

Pero, el resultado de MemPalace de 100% en LongMemEval pronto también atrajo dudas por parte de competidores.

PenfieldLabs, que también fabrica sistemas de memoria con IA, señaló que la afirmación de MemPalace de haber obtenido una puntuación perfecta en el conjunto de datos LoCoMo es matemáticamente imposible, porque las respuestas estándar de ese conjunto de datos ya incluyen 99 errores.

El análisis de PenfieldLabs encontró que el 100% de MemPalace proviene de establecer el número de recuperaciones en 50, pero las conversaciones de prueba solo tienen un número máximo de etapas de 32; esto significa que el sistema se salta directamente la etapa de recuperación y entrega todos los datos al modelo de IA para que los lea.

Con respecto al 100% de LongMemEval, se descubrió que el equipo de desarrollo apuntó a 3 problemas específicos que se concentraron en errores, y escribió un código de reparación exclusivo; hay sospechas de hacer trampas dirigidas al conjunto de prueba.

Fuente de imagen: Reddit PenfieldLabs, competidor, señala que es imposible que MemPalace logre una puntuación perfecta en el conjunto de datos LoCoMo desde el punto de vista matemático

Pruebas reales en GitHub: el benchmark contiene un componente de inducción al error

El usuario de GitHub hugooconnor, después de probar, comentó que, aunque MemPalace afirma tener hasta un 96.6% de precisión de recuperación, en realidad no usa en absoluto la arquitectura de palacio de memoria que promociona MemPalace. hugooconnor dice que sus pruebas simplemente llaman a la función predeterminada del repositorio de datos subyacente ChromaDB, sin involucrar en absoluto la lógica de clasificación por alas, habitaciones o cajones que el proyecto enfatiza.

Tras sus pruebas, hugooconnor descubrió que cuando el sistema activa realmente la lógica de clasificación exclusiva de estos palacios de memoria, el rendimiento de recuperación en realidad empeora. Por ejemplo, en el modo de habitaciones, la precisión baja a 89.4%, y al activar la tecnología de compresión AAAK, la precisión cae aún más a 84.2%; en ambos casos, quedan por debajo del rendimiento del repositorio de datos predeterminado.

hugooconnor también criticó el método de prueba: el entorno de pruebas de MemPalace deliberadamente reduce el rango de recuperación de cada problema a aproximadamente 50 etapas de conversación; buscar respuestas en una base de datos de muestra tan pequeña es demasiado sencillo.

Si el rango se amplía a más de 19,000 etapas de conversación en un escenario real, la precisión de la búsqueda tradicional por palabras clave cae en picada a 30%, lo que muestra que el método de prueba actual de MemPalace está ocultando el verdadero problema de búsqueda.

Fuente de imagen: GitHub Pruebas reales de usuarios de GitHub: el benchmark de MemPalace contiene un componente de inducción al error

Al mismo tiempo, aunque el equipo de desarrollo ya publicó una declaración de corrección, admitiendo que la tecnología AAAK efectivamente se valida como compresión con pérdidas, y prometiendo ajustar la documentación y el diseño del sistema según las duras críticas de la comunidad, el documento principal de descripción del proyecto aún conserva múltiples afirmaciones exageradas no corregidas, incluyendo el supuesto “compresión sin pérdidas 30 veces” y la “mejora de recuperación del 34%”, y además las gráficas de comparación con otros competidores también carecen por completo de fuentes.

El código fuente de MemPalace enfrenta múltiples Bug

A medida que más y más desarrolladores descargan las pruebas, en la plataforma GitHub aparecen gran cantidad de reportes de Bug sobre el código fuente de MemPalace.

El usuario cktang88 enumera múltiples fallas graves, incluyendo que el comando de compresión no puede funcionar y provoca que el sistema se bloquee, errores en la lógica de cálculo del número de palabras del resumen, estadísticas inexactas al excavar habitaciones, y que el servidor carga en memoria todos los datos interpretados en cada llamada, causando un grave problema de consumo de recursos.

Otros problemas señalados también incluyen que el sistema escribe de forma forzada el nombre de un familiar del desarrollador en el archivo de configuración predeterminado, y que existe un límite superior obligatorio de visualización de 10k registros al consultar el estado.

Para estos problemas, la comunidad open source ya ha comenzado a repararlos activamente. El usuario adv3nt3 envió múltiples solicitudes dereparación, incluyendo corregir las estadísticas de excavación, eliminar los nombres predeterminados de familiares y retrasar el tiempo de inicialización del mapa de conocimientos. El equipo de desarrollo posteriormente también reconoció estos errores y está resolviendo gradualmente los problemas del código mediante la colaboración con la comunidad.

La Vibe Coding de Milla Jovovich es genial; la forma de hacer marketing no

Para el proyecto MemPalace, un usuario de Hacker News, darkhanakh, llegó a una conclusión: MemPalace da la impresión de OpenClaw, es decir, manipula artificialmente los resultados del benchmark para que parezcan perfectos y luego los envuelve para comercializarlos como algún gran avance.

Considera que la tecnología subyacente de MemPalace podría ser realmente interesante, pero dadas estas fallas en el método de prueba, y además se promociona con el eslogan de “la puntuación pública más alta de la historia”, no es muy apropiado. “Pero, lo de que Milla Jovovich esté jugando a Vibe Coding, la verdad es que creo que igual es bastante genial.”

Lectura adicional:
¡La IA escribe código y sale mal! La app “惜食獵人” de la comida con fecha de consumo en tiendas dispara problemas de seguridad en ciberseguridad; el GPS en casa queda al desnudo

Aviso legal: La información de esta página puede proceder de terceros y no representa los puntos de vista ni las opiniones de Gate. El contenido que aparece en esta página es solo para fines informativos y no constituye ningún tipo de asesoramiento financiero, de inversión o legal. Gate no garantiza la exactitud ni la integridad de la información y no se hace responsable de ninguna pérdida derivada del uso de esta información. Las inversiones en activos virtuales conllevan riesgos elevados y están sujetas a una volatilidad significativa de los precios. Podrías perder todo el capital invertido. Asegúrate de entender completamente los riesgos asociados y toma decisiones prudentes de acuerdo con tu situación financiera y tu tolerancia al riesgo. Para obtener más información, consulta el Aviso legal.
Comentar
0/400
Sin comentarios