Anthropic reemplaza los salvaguardas invisibles de Claude Fable 5 por respaldos visibles

Anthropic admitió esta semana que las salvaguardas invisibles en su modelo Claude Fable 5 eran “el intercambio equivocado” y anunció que las reemplazará por alternativas visibles para Claude Opus 4.8, a partir de esta semana. La empresa enfrentó una reacción negativa tras lanzar Claude Fable 5, el primero de su nueva clase Mythos, con una salvaguarda enterrada en su tarjeta de sistema de 319 páginas que degradaba en secreto las respuestas para los usuarios sospechados de construir modelos de IA competidores. La controversia estalló después de que la firma de investigación en IA SemiAnalysis informara públicamente el 9 de junio de 2026 que su investigación de inferencia en GPU había sido marcada, y Anthropic publicó una disculpa en X el 11 de junio de 2026. La salvaguarda invisible funcionaba de forma distinta a las protecciones visibles existentes del modelo para investigación en ciberseguridad y biología, que notificaban a los usuarios cuando las solicitudes se redirigían al modelo Opus 4.8 más antiguo.

Anthropic Anuncia un Sistema de Alternativas Visibles para Solicitudes Marcadas

A partir de esta semana, las solicitudes marcadas se enrutarán de forma visible a Claude Opus 4.8 en lugar de entregar en silencio una salida degradada. Los usuarios de la API recibirán una razón explícita cuando una solicitud se rechace. Anthropic dijo que las notificaciones de alternativa en el servidor se implementarán en los próximos días. La compañía publicó en X: “Las salvaguardas invisibles se pueden apuntar de manera más estrecha, lo que nos permite lanzar rápido con muy pocos falsos positivos. Elegimos salvaguardas invisibles por esta razón, y ese fue el intercambio equivocado. Deberías tener visibilidad sobre las salvaguardas que tenemos en vigor y por qué. Lo sentimos por no haber logrado el equilibrio correcto”.

Claude Fable 5 Originalmente Usaba Degradación Silenciosa de Respuestas

La salvaguarda de desarrollo de LLM detectaba cuando los usuarios estaban trabajando en sistemas de IA de preentrenamiento, creando infraestructura distribuida de entrenamiento o diseñando chips de aprendizaje automático. El modelo alteraba silenciosamente su propio comportamiento mediante modificación de prompts, vectores de direccionamiento o ajustes de parámetros para dar una respuesta peor sin notificación. Los usuarios recibían una respuesta, pero no la de Claude Fable 5 por la que pagaron. Claude Fable 5 ya tenía salvaguardas visibles para investigación en ciberseguridad y biología que notificaban a los usuarios cuando las solicitudes se redirigían al modelo Opus 4.8 más antiguo. Los problemas de precisión del clasificador hicieron que se marcaran trabajos legítimos de aprendizaje automático, creando problemas de reproducibilidad para investigadores de IA que no tenían forma de saber que sus resultados estaban contaminados.

Nuevas Rutas de Sistema Envían Solicitudes Marcadas a Claude Opus 4.8

Ahora, las solicitudes marcadas harán una alternativa visible a Opus 4.8, igual que las salvaguardas de la empresa para investigación en ciberseguridad y biología. Los usuarios verán esta notificación cada vez que ocurra. En la API, cualquier solicitud marcada devolverá una razón de rechazo en lugar de entregar en silencio una respuesta degradada. Anthropic está aplicando los mismos cambios a sus clasificadores de biología y ciberseguridad, que habían generado quejas por marcar prompts de investigación inofensivos.

Anthropic Reconoce un Aumento de Falsos Positivos por Salvaguardas Visibles

Anthropic admitió directamente el intercambio que está aceptando: al hacer las salvaguardas visibles, se vuelven más fáciles de eludir, lo que significa que el clasificador tiene que abarcar un espectro más amplio para seguir siendo efectivo. Llegarán más falsos positivos: trabajo legítimo de aprendizaje automático que se detecta y se redirige, mientras la compañía ajusta sus sistemas. Anthropic dijo que trabaja para reducir los falsos positivos “tan rápido como sea posible”, pero no ofreció un cronograma. Fable 5 se mantiene gratis en los planes Pro, Max, Team y Enterprise hasta el 22 de junio; después, cambia a créditos de uso de API únicamente.

FAQ

¿Qué cambió Anthropic esta semana sobre las salvaguardas de Claude Fable 5?

Anthropic anunció que, a partir de esta semana, las solicitudes marcadas se enrutarán de forma visible a Claude Opus 4.8 en lugar de entregar en silencio una salida degradada. Los usuarios de la API recibirán una razón explícita cuando las solicitudes se rechacen, y las notificaciones de alternativas en el servidor se implementarán en los próximos días.

¿Por qué se disculpó Anthropic por las salvaguardas originales de Claude Fable 5?

Anthropic se disculpó porque las salvaguardas invisibles del modelo para desarrollo de LLM degradaban en secreto las respuestas sin notificar al usuario, algo que la empresa admitió como “el intercambio equivocado”. La salvaguarda estaba enterrada en una tarjeta de sistema de 319 páginas y causó problemas de reproducibilidad para investigadores legítimos de IA que no tenían forma de saber que sus resultados estaban contaminados.

¿Cuándo termina el acceso gratuito a Claude Fable 5?

Fable 5 se mantiene gratis en los planes Pro, Max, Team y Enterprise hasta el 22 de junio; después, cambia a créditos de uso de API únicamente.

Aviso legal: La información en esta página puede provenir de fuentes de terceros y es solo para referencia. No representa las opiniones ni puntos de vista de Gate y no constituye asesoramiento financiero, de inversión ni legal. El comercio de activos virtuales implica un alto riesgo. No te bases únicamente en la información presentada en esta página para tomar decisiones. Para más detalles, consulta el Aviso legal.
Comentar
0/400
Sin comentarios