Claude Fable 5 incorpora un mecanismo de detección por destilación, con una tasa de activación inferior al 5%

2026-06-10 03:49:33

Anthropic 於 9 de junio veröffentlichó oficialmente a Claude Fable 5, el primer modelo de nivel Mythos abierto al público, que integra un mecanismo de detección de destilación impulsado por clasificadores de IA. Cuando el sistema identifica intentos de destilación y otros tres tipos de solicitudes de alto riesgo, reduce automáticamente el nivel de la conversación a fin de que responda con Opus 4.8; Anthropic confirmó que este mecanismo, en promedio, afecta a menos del 5% de las sesiones de conversación.

Especificación de detección de destilación: tres condiciones de activación y mecanismo de degradación automática

Según un comunicado oficial de Anthropic, las condiciones de activación del clasificador de IA de Claude Fable 5 son las siguientes:

· Solicitudes de ataques de ciberseguridad en red

· Solicitudes relacionadas con armas biológicas o químicas

· Intentos de destilación del modelo (incluye técnicas de extracción como reescritura de prompt, vectors de steering y ajustes finos eficientes tipo PEFT mediante parámetros)

Tras la activación, el sistema degrada automáticamente la conversación para que responda con Claude Opus 4.8 y notifica al usuario. Anthropic confirmó que la tasa de éxito de la interceptación para tareas de ciberseguridad ofensivas es del 100%; el impacto general del mecanismo es inferior al 5% de las sesiones de conversación.

Números confirmados de las acusaciones de febrero de 2026

Anthropic confirmó oficialmente que los objetivos de las acusaciones de febrero de 2026 son DeepSeek, Moonshot AI y MiniMax. Mediante aproximadamente 24.000 cuentas falsificadas, iniciaron más de 16.000.000 de consultas, con el fin de extraer de forma sistemática las salidas de Claude para entrenar sus propios modelos.

Las cifras de volumen de consultas desglosadas por el investigador en aprendizaje automático Nathan Lambert (investigador independiente externo, no perteneciente a Anthropic) son: aproximadamente 150.000 consultas para DeepSeek (orientadas a modelos de razonamiento y de recompensas), aproximadamente 3,4 millones para Moonshot AI y aproximadamente 13 millones para MiniMax; las primeras dos, combinadas, corresponden a un volumen de datos de posentrenamiento de aproximadamente 1500 a 4000 millones de tokens. Los números de Lambert corresponden a su análisis independiente y no son datos oficiales de Anthropic.

Limitaciones conocidas del mecanismo: límites borrosos entre destilación legal y no autorizada

Anthropic confirmó que la “destilación legal” (según el uso autorizado de las salidas de Claude) y la “destilación no autorizada” son casi idénticas a nivel de operación técnica, y existe una zona ambigua en la definición del límite. Nathan Lambert indicó en su análisis externo: “bloquear la destilación sería mucho más difícil que limitar el envío de mercancías físicas como GPUs”.

Lambert también señaló que, mientras Anthropic siga vendiendo la API, no se puede cerrar por completo el canal de destilación; incluso en un entorno con GPUs limitadas, los laboratorios chinos mantienen una infraestructura de aprendizaje por refuerzo (RL) sólida y aun así pueden apoyarse en modelos de código abierto de Meta y Google y en sus propios pipelines de datos sintéticos. Las evaluaciones anteriores son análisis externos e independientes de Lambert, y no representan la postura de Anthropic.

Preguntas frecuentes

¿En qué se diferencian la detección de destilación de Claude Fable 5 y las cláusulas anti-destilación en los términos de uso anteriores?

Los requisitos anti-destilación anteriores de Anthropic se reflejaban principalmente en los términos de servicio (Terms of Service), apoyándose en restricciones legales. El enfoque de Claude Fable 5 consiste en integrar un clasificador dentro del propio modelo: intercepta directamente los intentos de destilación detectados a nivel técnico y degrada automáticamente la conversación, sin necesidad de esperar a que intervenga el proceso legal.

¿Qué es la destilación de modelos y por qué la destilación legal y la no autorizada son difíciles de definir con precisión a nivel técnico?

La destilación de modelos (Knowledge Distillation) se refiere a utilizar las salidas de un modelo grande para entrenar un modelo más pequeño, de modo que este último aprenda las capacidades del primero. La destilación legal (según el uso autorizado de las salidas) y la destilación no autorizada (consulta sistemática a gran escala para extraer datos de entrenamiento) son casi iguales en la forma de operación técnica; por eso, la clasificación automática por parte del clasificador de IA tiene dificultad de evaluación.

¿Qué efectos conocidos tiene este mecanismo en el progreso de entrenamiento de laboratorios de IA chinos como DeepSeek?

Anthropic no ha publicado datos cuantitativos específicos sobre el impacto de este mecanismo en laboratorios concretos. El análisis de investigadores externos como Nathan Lambert indica que los laboratorios chinos cuentan con modelos de código abierto de Meta y Google, infraestructuras propias de aprendizaje por refuerzo y pipelines de generación de datos sintéticos; la protección frente a destilación sería una interferencia y no un obstáculo fundamental. La evaluación de Lambert corresponde a análisis externo e independiente, y no a una postura oficial de Anthropic.

Aviso legal: La información en esta página puede provenir de fuentes de terceros y es solo para referencia. No representa las opiniones ni puntos de vista de Gate y no constituye asesoramiento financiero, de inversión ni legal. El comercio de activos virtuales implica un alto riesgo. No te bases únicamente en la información presentada en esta página para tomar decisiones. Para más detalles, consulta el Aviso legal.

Noticias relacionadas

hace5h

Anthropic lanza Claude Fable 5 con acceso público, con precios de 10 a 50 dólares por millón de tokens

hace5h

Anthropic anuncia Claude Fable 5 y Claude Mythos 5 hoy; Mythos ofrece restricciones de seguridad reducidas para expertos en ciberseguridad

hace7h

Anthropic lanza la versión pública de Mythos con restricciones de ciberseguridad el 10 de junio