Miles de personas en todo el mundo venden su voz, imagen y grabaciones de llamadas para alimentar IA a cambio de ingresos, pero asumen el riesgo de la falsificación profunda y la autorización irreversible.
Introducción de Deep潮: Una investigación del periódico británico The Guardian revela una industria gris en rápido crecimiento: miles de personas en todo el mundo están ganando dinero al vender su voz, rostro, grabaciones de llamadas y videos cotidianos para costear el entrenamiento de IA. No se trata de una discusión general sobre la privacidad, sino de una investigación con personas reales, montos reales y consecuencias reales: un actor que vendió su rostro vio más tarde en Instagram “su propia” imagen promocionando un producto médico desconocido, con comentarios sobre su “apariencia”. A medida que la sed de datos de las empresas de IA se combina con la brecha económica global, se está creando un intercambio desigual.
El artículo completo es el siguiente:
Una mañana del año pasado, Jacobus Louw, quien vive en Ciudad del Cabo, Sudáfrica, salió a caminar como de costumbre, alimentando gaviotas en el camino. Pero esta vez grabó varios videos: filmando sus pasos y la vista desde la acera. Este video le hizo ganar 14 dólares, aproximadamente diez veces el salario mínimo del país, equivalente a la mitad del gasto de alimentos de este joven de 27 años durante una semana.
Esta fue una tarea de “navegación urbana” que Louw completó en Kled AI. Kled AI es una aplicación que paga a los usuarios por subir fotos, videos y otros datos para entrenar modelos de IA. En solo unas semanas, Louw ganó 50 dólares al subir fotos y videos de su vida cotidiana.
A miles de kilómetros de distancia, en Ranchi, India, Sahil Tigga, un estudiante de 22 años, gana dinero regularmente con Silencio: esta aplicación crowdsourcing utiliza datos de audio para el entrenamiento de IA y accede al micrófono de su teléfono para capturar el ruido ambiental dentro de restaurantes o en intersecciones concurridas. También sube grabaciones de su propia voz. Sahil se esfuerza por visitar escenarios únicos, como el vestíbulo de hoteles que aún no están registrados en el mapa de Silencio. Con esto, gana más de 100 dólares al mes, suficiente para cubrir todos sus gastos de comida.
En Chicago, Ramelio Hill, un aprendiz de soldadura de 18 años, vendió sus conversaciones privadas por teléfono con amigos y familiares a Neon Mobile, una plataforma de entrenamiento de IA conversacional que paga 0.50 dólares por minuto, ganando cientos de dólares. Para Hill, la ecuación es simple: cree que las empresas tecnológicas ya tienen acceso a gran cantidad de sus datos privados y prefiere también obtener una parte.
Estos “trabajos de entrenamiento de IA” —subir imágenes de su entorno, fotos, videos y audios— están en la primera línea de una nueva fiebre de minería de datos global. A medida que Silicon Valley busca desesperadamente datos humanos de alta calidad más allá de lo que se puede raspar de la web abierta, ha surgido una floreciente industria de mercado de datos para llenar este vacío. Desde Ciudad del Cabo hasta Chicago, miles de personas están otorgando licencias de sus datos biométricos y privados a la próxima generación de IA.
Pero esta nueva economía de trabajos temporales viene con un costo. Detrás de unos pocos dólares, estos entrenadores están alimentando una industria que podría eventualmente hacer obsoletas sus habilidades, al tiempo que se exponen a riesgos futuros de falsificación profunda, robo de identidad y explotación digital—y apenas están comenzando a entenderlo.
Modelos de lenguaje de IA como ChatGPT y Gemini requieren enormes cantidades de material de aprendizaje para seguir mejorando, pero se enfrentan a una escasez de datos. Las fuentes de datos de entrenamiento más utilizadas—C4, RefinedWeb y Dolma—constituyen una cuarta parte de los conjuntos de datos de más alta calidad de la web, y ahora están restringiendo el uso de datos para la capacitación de modelos de IA generativa. Los investigadores estiman que las empresas de IA agotarán los textos frescos y de alta calidad disponibles para 2026. Aunque algunos laboratorios han comenzado a retroalimentar el entrenamiento con datos sintéticos generados por IA, este proceso recursivo puede llevar a que los modelos produzcan “basura” llena de errores, lo que provoca colapsos.
Fuente de la imagen: The Guardian
Aplicaciones como Kled AI y Silencio están apareciendo aquí. En estos mercados de datos, millones de personas están alimentando y entrenando IA al vender sus datos de identidad. Además de Kled AI, Silencio y Neon Mobile, los entrenadores de IA cuentan con muchas más opciones: Luel AI, respaldada por el famoso incubador Y-Combinator, obtiene material de conversación multilingüe a aproximadamente 0.15 dólares por minuto; ElevenLabs permite clonar digitalmente tu voz y la ofrece a otros a una tarifa base de 0.02 dólares por minuto.
Bouke Klein Teeselink, profesor de economía en King’s College de Londres, afirma que los trabajos de entrenamiento de IA son una nueva categoría laboral que crecerá significativamente.
Las empresas de IA saben que pagar a las personas por los derechos de licencia de datos ayuda a evitar conflictos de derechos de autor que podrían surgir al depender completamente del contenido raspado de la web, dice Teeselink. El investigador de IA Veniamin Veselovsky explica que estas empresas también necesitan datos de alta calidad para modelar nuevos comportamientos mejorados en el sistema. “En este momento, los datos humanos son el estándar de oro para muestrear fuera de la distribución del modelo”, añade Veselovsky.
Las personas que impulsan estas máquinas—especialmente en países en desarrollo—a menudo necesitan este dinero y prácticamente no tienen otra opción. Para muchos trabajadores de entrenamiento de IA, hacer este trabajo es una respuesta pragmática a la disparidad económica. En países con altas tasas de desempleo y devaluación de la moneda local, ganar dólares a menudo es más estable y rentable que trabajar localmente. Algunas personas tienen dificultades para encontrar trabajos de nivel inicial y se ven obligadas a trabajar en el entrenamiento de IA para sobrevivir. Incluso en países más ricos, el aumento del costo de vida ha hecho que venderse a sí mismo se convierta en una opción financiera lógica.
Louw, un entrenador de IA en Ciudad del Cabo, es plenamente consciente del costo de la privacidad. A pesar de que sus ingresos son inestables y no cubren todos sus gastos mensuales, está dispuesto a aceptar esas condiciones para ganar dinero. Ha estado lidiando con una enfermedad del sistema nervioso durante años y no ha podido encontrar trabajo, pero el dinero que ha ganado en el mercado de datos de IA (incluido Kled AI) le permitió ahorrar 500 dólares para inscribirse en un curso de capacitación en spa y convertirse en masajista.
“Como sudafricano, recibir dólares vale más de lo que la gente imagina”, dice Louw.
Mark Graham, profesor de geografía digital en la Universidad de Oxford y autor de “Feeding the Machine”, admite que para las personas en países en desarrollo, este dinero puede tener un significado práctico a corto plazo, pero advierte: “Estructuralmente, este trabajo es inestable, sin oportunidades de avance, y en realidad es una calle sin salida”.
Graham añade que el mercado de datos de IA depende de “una carrera a la baja en los salarios” y “una demanda temporal de datos humanos”. Una vez que esa demanda se transfiera, “los trabajadores no tendrán ninguna garantía, ninguna habilidad transferible y ninguna red de seguridad”.
Graham afirma que los únicos ganadores son “las plataformas del hemisferio norte, que obtienen todo el valor duradero”.
Fuente de la imagen: The Guardian
El entrenador de IA Hill de Chicago tiene sentimientos encontrados sobre vender sus llamadas privadas a Neon Mobile. Aproximadamente 11 horas de contenido de llamadas le hicieron ganar 200 dólares, pero dice que la aplicación a menudo se desconecta y retrasa los pagos. “Neon siempre ha sido sospechosa para mí, pero seguí usándola solo para ganar un poco de dinero extra para pagar las cuentas”, dice Hill.
Ahora empieza a reconsiderar si realmente fue tan fácil ganar ese dinero. En septiembre del año pasado, Neon Mobile se desconectó unas semanas después de su lanzamiento, tras descubrir TechCrunch una vulnerabilidad de seguridad que permitía a cualquiera acceder a los números de teléfono, grabaciones de llamadas y mensajes de texto de los usuarios. Hill dice que Neon Mobile nunca le notificó sobre esto, y ahora le preocupa que su voz sea mal utilizada en línea.
Jennifer King, investigadora de privacidad de datos en el Instituto de IA centrado en el ser humano de la Universidad de Stanford, expresa su preocupación de que el mercado de datos de IA no sea claro sobre cómo y dónde se utilizarán los datos de los usuarios. Agrega que, sin comprender sus derechos y sin poder negociar al respecto, “los consumidores enfrentan el riesgo de que sus datos se reutilicen de maneras que no les gusten, no entiendan o no anticipen, y para entonces habrá casi ninguna vía de remedio”.
Cuando los entrenadores de IA comparten datos en Neon Mobile y Kled AI, otorgan una licencia total (global, exclusiva, irreversible, transferible y sin regalías) que permite a la plataforma vender, usar, exhibir públicamente y almacenar su imagen, e incluso crear obras derivadas a partir de ella.
Avi Patel, fundador de Kled AI, dice que el acuerdo de datos de su compañía limitará el uso a fines de entrenamiento e investigación de IA. “Todo el modelo de negocio depende de la confianza del usuario. Si los contribuyentes creen que sus datos pueden ser mal utilizados, la plataforma no podrá funcionar”. Asegura que la empresa revisa a los compradores antes de vender conjuntos de datos para evitar colaborar con “organizaciones de dudosa intención”, como la industria del porno, y con “agencias gubernamentales” que creen que podrían usar los datos de una manera que traicione esa confianza.
Neon Mobile no respondió a la solicitud de comentarios.
Enrico Bonadio, profesor de derecho en la Universidad de St. George en Londres, señala que estos términos del acuerdo permiten a la plataforma y a sus clientes “hacer prácticamente cualquier cosa con ese material, de forma permanente, sin necesidad de pagos adicionales, y los contribuyentes no tienen un medio real para retirar su consentimiento o renegociar”.
Los riesgos más preocupantes incluyen: que los datos de los entrenadores sean utilizados para crear falsificaciones profundas y suplantaciones de identidad. Aunque el mercado de datos afirma que eliminará la información identificable (como nombres y ubicaciones) antes de la venta, Bonadio agrega que las características biométricas son inherentemente difíciles de anonimizar de manera significativa.
Incluso si los entrenadores de IA pueden negociar términos de protección más específicos sobre cómo se utilizarán sus datos, aún pueden arrepentirse. En 2024, Adam Coy, un actor de Nueva York, vendió su imagen a Captions—una aplicación de edición de video de IA, que ahora se llama Mirage—por 1000 dólares. Su acuerdo estipulaba que su identidad no se utilizaría para ningún propósito político, no se utilizaría para comercializar alcohol, tabaco o contenido para adultos, y que la duración de la licencia era de un año.
Captions no respondió a la solicitud de comentarios.
Poco después, los amigos de Adam comenzaron a compartir videos que encontraron en línea, donde su rostro y voz eran utilizados, acumulando millones de visitas. En uno de los videos de Instagram, el clon de IA de Adam se autodenomina “doctor de vagina”, promoviendo suplementos médicos no verificados para mujeres durante el embarazo y después del parto.
“Explicar esto a los demás me hace sentir incómodo”, dice Coy.
“Los comentarios son extraños, porque están evaluando mi apariencia, pero no soy yo”, agrega Coy. “Cuando tomé la decisión de (vender mi imagen), pensé que la mayoría de los modelos de todos modos rasparían datos e imágenes en línea, así que ¿por qué no me pagan?”
Coy dice que desde entonces no ha aceptado ningún trabajo de datos de IA. Afirma que solo consideraría hacerlo nuevamente si una empresa ofreciera una compensación significativa.