Stanford crea Agent Island: Los modelos de IA en un juego estilo Survivor usan estrategias de traición y se eliminan mediante votaciones cruzadas

ChainNewsAbmedia

La investigadora del laboratorio de economía digital de Stanford, Connacher Murphy, presentó el 9 de mayo un nuevo entorno de evaluación de IA, «Agent Island», para que los agentes de IA compitan entre sí, formen alianzas, traicionen y voten para eliminar rivales en un videojuego multijugador al estilo de Survivor (superviviente), midiendo así conductas estratégicas que los benchmarks estáticos no logran capturar. Decrypt recopiló la información: los benchmarks tradicionales de IA son cada vez menos confiables: con el tiempo, los modelos terminan aprendiendo a resolver el problema y los datos del benchmark también se filtran fácilmente en el conjunto de entrenamiento; Agent Island cambia a un diseño de «eliminatoria dinámica», en el que el modelo debe tomar decisiones estratégicas sobre otros agentes y no puede avanzar solo recordando respuestas preestablecidas.

Reglas de Agent Island: agentes se alían, traicionan y votan para eliminar

Mecanismos centrales del juego de Agent Island:

Varios agentes de IA entran en el mismo escenario de juego y actúan como jugadores de estilo Survivor

Los agentes deben negociar alianzas con otros agentes y compartir información entre ellos

Los agentes pueden acusar en el proceso a otros de coordinación secreta, y manipular la votación

El juego reduce la cantidad de agentes en la arena mediante un mecanismo de eliminación y, finalmente, queda un ganador

Los investigadores observan los patrones de comportamiento de los agentes en cada etapa, extrayendo señales como «traición estratégica», «formación de alianzas» y «manipulación de información»

El corazón de este diseño es «que no se puede confiar en la memoria previa»: como la conducta de los demás agentes cambia de manera dinámica, el modelo debe decidir según el contexto actual, en lugar de poder memorizar respuestas como en un benchmark estático.

Motivación del estudio: los benchmarks estáticos no pueden evaluar conductas de interacción entre múltiples agentes

Problemas concretos que defiende la investigación de Murphy:

Los benchmarks tradicionales se saturan con facilidad: a medida que el entrenamiento del modelo avanza, las puntuaciones del benchmark dejan de distinguir entre modelos diferentes

Contaminación de datos de benchmark: las preguntas aparecen en grandes corpus de entrenamiento, por lo que el modelo en realidad «recuerda respuestas» en vez de «entender el problema»

La interacción de múltiples agentes es un escenario real de despliegue de IA: en el futuro, los sistemas de agentes podrían coordinar varios modelos, y la interacción entre agentes es una nueva dimensión de evaluación

Agent Island ofrece evaluación dinámica: cada resultado de juego es diferente y es difícil prepararse con antelación

Entre las conductas observadas por los investigadores en la eliminatoria dinámica se incluyen casos en los que los agentes cooperan en la superficie mientras, en la trastienda, coordinan la votación para eliminar a un adversario en común; y también, cuando son acusados de coordinación secreta, desvían el foco con todo tipo de argumentos. Estas conductas se parecen a las de los jugadores humanos en el programa real de Survivor.

Doble filo de la investigación: puede servir para evaluar, pero también para mejorar la capacidad de engaño

Murphy señaló explícitamente los riesgos potenciales en su investigación:

El valor de Agent Island: antes del despliegue a gran escala de agentes, identificar las tendencias del modelo hacia el engaño y la manipulación

El mismo entorno también podría usarse para mejorar las «estrategias de persuasión y coordinación» de los agentes

Si los datos de investigación (logs de interacción) se hacen públicos, podrían usarse para entrenar a la próxima generación de agentes con mayor capacidad de manipulación

El equipo de investigación está evaluando cómo equilibrar entre publicar resultados y evitar el uso indebido

Eventos concretos que se pueden seguir a continuación: si Agent Island se amplía para convertirse en un estándar habitual de evaluación de IA, si otros equipos de investigación de seguridad de IA (como Anthropic, OpenAI, Apollo Research, etc.) adoptan métodos de evaluación dinámicos similares, y qué políticas específicas elaborará el equipo de investigación sobre «si los logs de interacción se publican o se limitan».

Este artículo con el anuncio de Stanford sobre Agent Island: «IA en juegos estilo Survivor con traición estratégica y eliminación mediante voto» apareció por primera vez en Cadena News ABMedia.

Aviso legal: La información de esta página puede proceder de terceros y no representa los puntos de vista ni las opiniones de Gate. El contenido que aparece en esta página es solo para fines informativos y no constituye ningún tipo de asesoramiento financiero, de inversión o legal. Gate no garantiza la exactitud ni la integridad de la información y no se hace responsable de ninguna pérdida derivada del uso de esta información. Las inversiones en activos virtuales conllevan riesgos elevados y están sujetas a una volatilidad significativa de los precios. Podrías perder todo el capital invertido. Asegúrate de entender completamente los riesgos asociados y toma decisiones prudentes de acuerdo con tu situación financiera y tu tolerancia al riesgo. Para obtener más información, consulta el Aviso legal.

Artículos relacionados

SAP invierte en n8n, duplicando la valoración de la plataforma de automatización de flujos de trabajo a 5,2 mil millones de dólares

Según Bloomberg, SAP invirtió en n8n el martes, duplicando la valoración de la plataforma de automatización de flujos de trabajo hasta 5,2 mil millones de dólares. El gigante alemán del software también firmó un acuerdo de asociación plurianual con n8n para integrar las herramientas de la plataforma en el motor de construcción de agentes de IA de SAP, Joule Studio, según el comunicado de SAP.

GateNewsHace50m

Artificial Analysis publica un benchmark para agentes de codificación; Zhipu GLM-5.1 ocupa el primer lugar entre los modelos de código abierto

Artificial Analysis lanzó hoy un nuevo Coding Agent Index para evaluar cómo se desempeñan los modelos de IA cuando se combinan con marcos de agentes en puntos de referencia clave, incluidos SWE-Bench-Pro-Hard-AA, Terminal-Bench v2 y SWE-Atlas-QnA. Zhipu GLM-5.1 ocupó el primer lugar entre los modelos de código abierto en la evaluación, demostrando un rendimiento líder en escenarios reales de agentes de programación.

GateNewshace1h

DAPPOS lanza xBubble, un agente universal de IA con más de 10 funciones principales para usuarios no técnicos

Según ChainCatcher, DAPPOS lanzó oficialmente xBubble, un producto universal de agente de IA diseñado para usuarios no técnicos. El producto recomienda automáticamente agentes especializados para completar tareas con prompts mínimos y menos iteraciones de depuración. xBubble ofrece 10+ capacidades principales que cubren la creación de imágenes, videos, documentos y sitios web, con soporte tanto para despliegue local como en la nube.

GateNewshace6h

Nous Research lanza el agente Hermes para control informático en macOS, reduciendo el consumo de tokens en un 95%

Nous Research anunció que su agente Hermes ha lanzado funcionalidad de control de computadoras en macOS, según el monitoreo de Beating. La función permite operaciones en segundo plano como búsquedas de correo y escritura de código sin interferir con la entrada del usuario ni el enfoque de la ventana. A través de un mecanismo de compresión de contexto de cuatro capas, el marco reduce el consumo de tokens de aproximadamente 600.000 a 30.000 tokens al ejecutar 20 operaciones consecutivas a una reso

GateNewshace7h

SNS y PoH Network permiten la verificación de IA en Solana

SNS ha ampliado la utilidad de sus dominios .sol mediante una nueva integración con PoH Network, presentando funciones mejoradas de verificación de identidad en cadena dentro del ecosistema de Solana, según un anuncio con fecha del 11 de mayo de 2026. La colaboración está diseñada para ayudar a diferenciar a los usuarios humanos de las entidades de inteligencia artificial en la cadena, al tiempo que mejora la usabilidad y el valor contextual de las identidades basadas en blockchain. La integraci

CryptoFrontierhace8h

MoonPay adquiere Dawn Labs y lanza una herramienta de agente de IA para operar en mercados de predicción

De acuerdo con The Block, MoonPay ha adquirido Dawn Labs y está lanzando Dawn CLI, una herramienta impulsada por IA diseñada para ayudar a usuarios no técnicos a crear estrategias de trading para mercados de predicción. Los usuarios pueden describir estrategias de trading en inglés sencillo, y el sistema automatiza la investigación, la generación de código, la simulación y la ejecución en vivo. La actividad de trading en mercados de predicción en plataformas como Polymarket y Kalshi se ha dispar

GateNewshace12h
Comentar
0/400
Sin comentarios