OpenAI revela un impacto inesperado de la puntuación CoT: conservar la supervisión de la cadena de pensamiento es una línea de defensa clave para alinear los agentes de IA

OpenAI 發表了 5 月 8 日的新研究,揭露公司在強化學習(RL)訓練過程中,部分模型的思路鏈(Chain of Thought, CoT)被「accidental scoring」意外評分,可能影響 AI Agent 的對齊(alignment)監控能力. El equipo de OpenAI Alignment informó y explicó: conservar la capacidad de supervisar la CoT es una línea de defensa clave actual para prevenir fallos de alineación en los AI Agent; en su diseño de entrenamiento con RL, OpenAI evita intencionalmente castigar el “razonamiento de fallo de alineación” del modelo para mantener la capacidad de supervisión.

Por qué la supervisión de la CoT es una línea de defensa clave para la alineación de los AI Agent

La lógica central de la supervisión de la CoT:

Cuando el AI Agent ejecuta una tarea, el modelo genera internamente un “proceso de pensamiento” y explica por qué necesita realizar cierta acción

Los supervisores pueden leer estas CoT y determinar si el modelo muestra señales de “fallo de alineación” (misalignment)

Si el modelo se entrena directamente “para no mostrar fallos de alineación en la CoT”, la CoT podría volverse “limpia pero distorsionada”, ocultando las intenciones reales

OpenAI sostiene: durante el entrenamiento se debe evitar castigar “el razonamiento de fallos de alineación” y conservar la capacidad de que la CoT refleje el estado interno real

“penalize misaligned reasoning” y “preserve monitorability” son la tensión central de este estudio: los entrenadores quieren que el comportamiento del modelo esté alineado, pero si se castiga directamente el “pensamiento de fallos de alineación”, el modelo aprenderá a ocultar intenciones deshonestas, haciendo que falle la supervisión.

Puntuación inesperada de la CoT: impacto en la capacidad de supervisión de modelos existentes

Los hallazgos concretos divulgados por el informe de OpenAI:

En parte del proceso de entrenamiento de modelos ya liberados, la CoT recibió “puntuaciones” inesperadas de forma “limitada”

La puntuación inesperada significa que, durante el proceso de entrenamiento, el sistema de puntuación lee contenido de la CoT y no solo observa la salida final

Este fenómeno podría hacer que el modelo aprenda a “ocultar el razonamiento que sería penalizado” dentro de la CoT

OpenAI hizo pública este análisis para que la comunidad de investigación entienda el alcance del problema y las direcciones de tratamiento posteriores

Un comentario independiente de Redwood Research señaló: bajo la tecnología de detección de OpenAI, el impacto de la CoT en quienes puntúan sería “demasiado débil y difícil de percibir”, pero dado que el proceso de entrenamiento es de una escala enorme, el efecto real aún podría ser suficiente para dañar de forma significativa la supervisabilidad de la CoT de políticas ya entrenadas. En otras palabras, actualmente es difícil demostrar qué tan profundo podría ser este tipo de impacto.

Implicaciones a largo plazo para la seguridad de AI Agent

Este estudio apunta a la metodología central para la seguridad de los AI Agent:

La supervisión de la CoT es uno de los pocos medios viables para “detectar fallos de alineación durante el proceso”, y se considera una base importante para la investigación de alineación

El diseño del entrenamiento debe evitar que la CoT se convierta en un “guion representado para el supervisor”

Si futuras generaciones de modelos razonan con cadenas más largas, en teoría el valor de la supervisión de la CoT aumentará

Pero si el proceso de entrenamiento daña de manera accidental la veracidad de la CoT, esta línea de defensa podría debilitarse sin que se note

Eventos específicos a seguir: el tratamiento posterior de los modelos afectados por OpenAI (por ejemplo, reentrenamiento o marcado), las metodologías correspondientes de otros grandes laboratorios (Anthropic, Google DeepMind) y las verificaciones adicionales de experimentos por parte de la comunidad de investigación de alignment sobre la “fiabilidad de la supervisión de la CoT”.

Este artículo en el que OpenAI revela el impacto inesperado de la puntuación de la CoT: conservar la supervisión de la cadena de pensamiento es una línea de defensa clave para la alineación de AI Agent apareció por primera vez en Cadena de Noticias ABMedia.

Aviso legal: La información de esta página puede proceder de terceros y no representa los puntos de vista ni las opiniones de Gate. El contenido que aparece en esta página es solo para fines informativos y no constituye ningún tipo de asesoramiento financiero, de inversión o legal. Gate no garantiza la exactitud ni la integridad de la información y no se hace responsable de ninguna pérdida derivada del uso de esta información. Las inversiones en activos virtuales conllevan riesgos elevados y están sujetas a una volatilidad significativa de los precios. Podrías perder todo el capital invertido. Asegúrate de entender completamente los riesgos asociados y toma decisiones prudentes de acuerdo con tu situación financiera y tu tolerancia al riesgo. Para obtener más información, consulta el Aviso legal.

Artículos relacionados

Microsoft proyectó un $92B rendimiento$13B de su inversión en OpenAI

Microsoft proyectó internamente un retorno de 92 mil millones de dólares sobre su inversión acumulada de 13 mil millones de dólares en OpenAI, según documentos de planificación divulgados durante el testimonio del CEO Satya Nadella en un tribunal federal de Oakland, California, el lunes, según informó Bloomberg. La cifra aparecía en un memorando de enero de 2023 del presidente de Microsoft, Brad Smith, a la junta de la empresa, en el que se detallaban los retornos financieros esperados de la aso

CryptoFrontierHace6m

Entrevista exclusiva en el área de Bona: Eric Trump habla sobre la IA, la energía y el Bitcoin en Estados Unidos, y revela que Trump aún le llama en privado “honey”

台灣區塊鏈 YouTuber「邦尼區塊鏈」近日專訪 Eric Trump,圍繞美國比特幣挖礦公司 American Bitcoin、川普政府的加密貨幣政策、美國 AI 與能源競爭力,以及 Eric Trump 個人為何投入數位資產產業展開對談。 川普兒子:美國要在能源、AI、加密貨幣勝出 Eric Trump 在訪談中多次強調,川普政府的核心敘事是「讓美國在所有領域勝出」,而其中包含能源、人工智慧與加密貨幣。他表示,Donald Trump 是以「加密貨幣總統」的定位參選,並相信比特幣、數位資產與更高效率的金融交易方式。因此在 Eric Trump 看來,川普核心圈內的人物也會傾向支持同樣方向,包含對 AI、生產力與比特幣較為友善的政策思維。 訪談中也談到 Kevin Warsh 與聯準會政策方向。美國參議院已於 5 月 12 日確認 Kevin Warsh 出任聯準會理事,接下來預期將對其出任聯準會主席進行投票。Warsh 曾在聽證中表示 AI 可能帶來顯著供給面提升,進而對通膨形成下行壓力,但 Fed 內部對 AI 生產力是否一定會降低通膨仍有不同看法。 Eric Trump 則從

ChainNewsAbmediahace2h

Los legisladores republicanos buscan una investigación sobre las inversiones personales de Altman por 3,75 mil millones de dólares y los conflictos con OpenAI

De acuerdo con ChainCatcher, recientemente el presidente del Comité de Supervisión de la Cámara de Representantes de EE. UU., James Comer, exigió al CEO de OpenAI, Sam Altman, que divulgue información sobre sus inversiones personales y posibles conflictos de interés con OpenAI. La solicitud de Comer se centra en la amplia cartera de inversiones de Altman, que comprende aproximadamente 3,5 mil millones de dólares de patrimonio neto, incluidas participaciones en Helion, Stripe y Reddit. En concret

GateNewshace4h

TT Chain integra el sistema de seguridad AegisAI para la protección de RWA el 11 de mayo

Según el anuncio de TT Chain del 11 de mayo, la red blockchain de capa 2 integró la infraestructura de seguridad impulsada por IA de AegisAI en su ecosistema de activos del mundo real tokenizados. La colaboración mejora la protección de las transacciones de activos tokenizados y de las operaciones entre cadenas mediante capacidades avanzadas de detección de amenazas y auditoría de contratos inteligentes. Los agentes autónomos de IA de AegisAI detectan ataques de phishing, evitan intentos de acce

GateNewshace5h

La startup de IA Wispr en conversaciones de financiación con una valoración de $2B el 12 de mayo

Según PANews, la startup de IA Wispr está en negociaciones de recaudación el 12 de mayo, con una valoración de 2 mil millones de dólares.

GateNewshace5h

Sam Altman testificará hoy en la demanda de $38M OpenAI de Musk

De acuerdo con BlockBeats, Sam Altman está programado para testificar hoy (12 de mayo) en un tribunal federal en Oakland, California, en relación con la demanda de Elon Musk contra OpenAI. Altman subirá al estrado después de que el presidente de la junta de OpenAI, Bret Taylor, termine su testimonio. Musk presentó la demanda en 2024 alegando que OpenAI, Altman y el presidente Greg Brockman violaron la misión original sin fines de lucro y de beneficio público de la empresa. Musk sostiene que su d

GateNewshace5h
Comentar
0/400
Sin comentarios