Resemble AI lanza DramaBox, un modelo de habla controlable a nivel de director, hoy en Hugging Face

ON-4%
PROMPT-6,55%
IN-6,83%

Beating, Resemble AI lanzó hoy DramaBox, un modelo de generación de voz, en Hugging Face. El modelo ofrece una controlabilidad a nivel de director mediante una sintaxis de prompts separada: los usuarios introducen el diálogo entre comillas y, al mismo tiempo, especifican indicaciones de escena como suspiros, pausas o susurros fuera de las comillas. El modelo convierte estas indicaciones en un habla con inflexiones emocionales en lugar de “leerlas” en voz alta.

DramaBox admite clonación de voz en zero-shot con solo 10 segundos de audio de referencia e incluso permite indicaciones en lenguaje natural para definir la edad del personaje, el acento y la emoción. Genera audio de calidad de estudio en estéreo a 48 kHz. Todo el audio generado incluye una marca de agua Perth invisible, resistente a la compresión MP3 y a la edición de audio estándar, para evitar el uso indebido de deepfakes.

Aviso legal: La información de esta página puede proceder de terceros y no representa los puntos de vista ni las opiniones de Gate. El contenido que aparece en esta página es solo para fines informativos y no constituye ningún tipo de asesoramiento financiero, de inversión o legal. Gate no garantiza la exactitud ni la integridad de la información y no se hace responsable de ninguna pérdida derivada del uso de esta información. Las inversiones en activos virtuales conllevan riesgos elevados y están sujetas a una volatilidad significativa de los precios. Podrías perder todo el capital invertido. Asegúrate de entender completamente los riesgos asociados y toma decisiones prudentes de acuerdo con tu situación financiera y tu tolerancia al riesgo. Para obtener más información, consulta el Aviso legal.
Comentar
0/400
Sin comentarios