Anthropic se disculpa por los 5 salvaguardas ocultos de Claude Fable, los reemplaza esta semana por alternativas visibles de Opus 4,8

Según la cuenta oficial de X de Anthropic el 11 de junio, la empresa se disculpó por degradar secretamente las respuestas de Claude Fable 5 para los usuarios sospechosos de construir modelos de IA competidores, admitiendo que las salvaguardas invisibles eran "la compensación equivocada". A partir de esta semana, las solicitudes marcadas retrocederán visiblemente a Claude Opus 4.8 en lugar de entregar en silencio una salida degradada. En la API, ahora los usuarios recibirán un motivo declarado cuando se rechace una solicitud, y las notificaciones de respaldo del lado del servidor se implementarán en los próximos días. Anthropic reconoció la compensación: hacer visibles las salvaguardas las vuelve más fáciles de eludir, lo que significa que podrían ocurrir más falsos positivos para trabajos legítimos de aprendizaje automático a medida que la empresa ajusta sus sistemas.
Aviso legal: La información en esta página puede provenir de fuentes de terceros y es solo para referencia. No representa las opiniones ni puntos de vista de Gate y no constituye asesoramiento financiero, de inversión ni legal. El comercio de activos virtuales implica un alto riesgo. No te bases únicamente en la información presentada en esta página para tomar decisiones. Para más detalles, consulta el Aviso legal.
Comentar
0/400
Sin comentarios