Claude Fable 5 se vulneró en un plazo de 48 horas tras su lanzamiento; el prompt del sistema se filtró en GitHub

De acuerdo con el investigador Pliny el Liberador, Claude Fable 5—publicado por Anthropic el 9 de junio—fue superado con éxito dentro de las 48 horas posteriores al lanzamiento. El investigador eludió el clasificador de seguridad del modelo usando tácticas de coordinación entre múltiples agentes, denominadas en conjunto "pack hunt", que combinaban ofuscación a nivel de caracteres, descomposición de solicitudes y la explotación de la ventana de contexto ampliada del modelo. Además, el prompt del sistema de 120,000 caracteres del modelo se filtró a GitHub, revelando mecanismos internos de seguridad.

Anthropic confirmó que había implementado un mecanismo de "degradación silenciosa" que reducía en secreto el rendimiento del modelo al detectar actividad de entrenamiento competitiva. La compañía se disculpó y anunció que reemplazaría la reducción encubierta del rendimiento por avisos visibles, aunque esto incrementa la interceptación de falsos positivos de usuarios legítimos.

Aviso legal: La información en esta página puede provenir de fuentes de terceros y es solo para referencia. No representa las opiniones ni puntos de vista de Gate y no constituye asesoramiento financiero, de inversión ni legal. El comercio de activos virtuales implica un alto riesgo. No te bases únicamente en la información presentada en esta página para tomar decisiones. Para más detalles, consulta el Aviso legal.
Comentar
0/400
Sin comentarios