Сообщение Gate News, 17 апреля — Google представила Gemini 3.1 Flash TTS, усовершенствованную модель преобразования текста в речь с расширенными функциями выражения эмоций и контроля, 15 апреля. Новая модель будет поэтапно внедряться через API для разработчиков, корпоративную платформу Vertex AI и инструменты для совместной работы.
Ключевые возможности модели включают аудиотеги на основе естественного языка для тонкой настройки скорости, интонации и эмоций, а также «Director Mode» для указания сцен и ролей персонажей, чтобы генерировать более нюансированную голосовую подачу. Функция нескольких спикеров позволяет одновременно генерировать диалоги, обеспечивая более естественные сценарии общения, подходящие для подкастов, аудиоконтента и ИИ‑ассистентов. Модель поддерживает более 70 языков и диалектов, отражая региональные акценты и выражения для локализованного голосового опыта по всему миру.
Google подчеркнула производительность и эффективность по стоимости, добившись высоких результатов на бенчмарках слепой оценки людьми, одновременно снижая вычислительные затраты благодаря архитектуре Flash — она предназначена для масштабного корпоративного внедрения. Сгенерированное аудио включает водяной знак SynthID, чтобы идентифицировать контент, сгенерированный ИИ, и бороться с дезинформацией.
Этот шаг отражает усиливающуюся конкуренцию в голосовых интерфейсах. OpenAI объединяет функции реального времени для голоса с разговорным ИИ для взаимодействий, похожих на человеческие, а Meta расширяет инвестиции в ИИ‑персонажей с голосовыми социальными сценариями. Наблюдатели отрасли отмечают, что хотя высокоуровневое актерское мастерство и креативная работа, вероятно, пока останутся в основном ориентированными на людей, повторяющиеся и массовые рынки производства могут постепенно перейти к использованию ИИ в дубляже, рекламе и сегменте аудиокниг.
Related News