Beating, Resemble AI lanzó hoy DramaBox, un modelo de generación de voz, en Hugging Face. El modelo ofrece una controlabilidad a nivel de director mediante una sintaxis de prompts separada: los usuarios introducen el diálogo entre comillas y, al mismo tiempo, especifican indicaciones de escena como suspiros, pausas o susurros fuera de las comillas. El modelo convierte estas indicaciones en un habla con inflexiones emocionales en lugar de “leerlas” en voz alta.
DramaBox admite clonación de voz en zero-shot con solo 10 segundos de audio de referencia e incluso permite indicaciones en lenguaje natural para definir la edad del personaje, el acento y la emoción. Genera audio de calidad de estudio en estéreo a 48 kHz. Todo el audio generado incluye una marca de agua Perth invisible, resistente a la compresión MP3 y a la edición de audio estándar, para evitar el uso indebido de deepfakes.
Related News
OpenAI agrega la detección de conversaciones de crisis de ChatGPT, mejorando la capacidad de alertas tempranas sobre violencia autoinfligida
WhatsApp presenta conversaciones sin huella con la IA de Meta: los mensajes que se autodestruyen despiertan dudas sobre posibles mecanismos de rendición de cuentas
Mistral AI y bancos europeos negocian para desarrollar un modelo alternativo de ciberseguridad llamado Mythos