Базирующаяся на искусственном интеллекте стартап-компания Thinking Machines, основанная ранее руководителями OpenAI — Мира Мурати и Джоном Шульманом — и оцененная в десятки миллиардов долларов, во вторник представила превью своей первой модели в режиме «говори и слушай одновременно»: полноценного дуплекса с задержкой до 0,4 секунды, бросающей вызов существующим сценариям взаимодействия человека и машины в реальном времени.
(Нвидиа инвестировала в Thinking Machines Lab и развернула Vera Rubin, чтобы повысить эффективность передовых моделей)
Новая модель Thinking Machines: ломает старую схему «по очереди»
У всех существующих ведущих моделей ИИ схема работы одинаковая: «пользователь вводит, модель ждёт, а затем отвечает». Мира Мурати, бывший технический директор OpenAI, и Джон Шульман, сооснователь OpenAI, считают, что этот процесс поочерёдных ответов больше похож на обмен сообщениями, а не на настоящий диалог. Теперь, объединив усилия, двое основателей создали Thinking Machines Lab, которое 11 мая официально представило исследовательское превью новой категории «интерактивных моделей (Interaction Models)» — попытку изменить ситуацию принципиально.
People talk, listen, watch, think, and collaborate at the same time, in real time. We’ve designed an AI that works with people the same way.
We share our approach, early results, and a quick look at our model in action. pic.twitter.com/uxl1InS6Ay
— Thinking Machines (@thinkymachines) May 11, 2026
Thinking Machines отмечает, что современные модели ИИ «воспринимают реальность в одном потоке»: пока пользователь не закончил говорить, модель может только ждать; пока модель не сгенерировала ответ целиком, восприятие «замораживается». Такой дизайн стал узким местом в совместной работе человека и машины, из-за чего взаимодействие с ИИ получается недостаточно естественным, как при разговоре с реальным собеседником.
Двое основателей полагают, что решение не в «латании» старой архитектуры внешними компонентами, а в том, чтобы с нуля обучить модель, изначально поддерживающую интерактивность в реальном времени.
Полно-дуплексная архитектура: ИИ, который умеет делать два дела одновременно
Модель, представленная Thinking Machines, называется TML-Interaction-Small. Это гибридная модель архитектуры mixture-of-experts (MoE): 276 миллиардов параметров, при этом на практике запуск в работе задействует 12 миллиардов параметров. Система обрабатывает вход и генерацию выходов в чередующемся режиме с шагом по 200 миллисекунд, без каких-либо искусственных границ «очереди». Так действительно реализуется так называемый «полный дуплекс (Full Duplex)» — как в телефонном разговоре, а не как в обмене сообщениями.
Система использует двухмодельный подход: «интерактивная модель» отвечает за живой диалог, подхват реплик и ответы; «фоновая модель» асинхронно выполняет сложное рассуждение, веб-поиск и вызовы инструментов, а затем без шва встраивает результаты в текущий разговор. Это позволяет ИИ в процессе говорения или слушания незаметно завершать назначенные задачи — поиск или построение графиков.
Бенчмарки: полностью обойти OpenAI и Google
В объявлении говорится, что в стандартном тесте FD-bench, оценивающем качество интерактивного взаимодействия ИИ, задержка «перехода хода» для TML-Interaction-Small составляет 0,40 секунды, что близко к скорости реакции человека в естественном диалоге. Это заметно лучше, чем 0,57 секунды у Google Gemini-3.1-flash-live и 1,18 секунды у GPT-realtime-2.0.
Тёмный цвет означает лидера по каждой таблице, светлый — лучшего в моделях реального времени
В дополнение к собственным тестам команды, специально разработанным под новые возможности интерактивности, в задаче «временное восприятие (TimeSpeak)» точность TML-Interaction-Small достигает 64,7%, тогда как у GPT-realtime-2.0 — всего 4,3%; в задаче «голосовой триггер» (CueSpeak) первый показатель составляет 81,7%, второй — лишь 2,9%; в задаче «визуальный счёт» (RepCount-A) у первого — 35,4%, а у второго почти ноль (1,3%).
Thinking Machines заявляет, что ни одна существующая коммерческая модель не способна осмысленно выполнить эти задачи, включая высокоуровневые «thinking»-модели OpenAI и Google.
Потенциал для бизнеса: от клиентского сервиса до мониторинга безопасности
Помимо более естественного повседневного опыта общения, эта технология представляет интерес и с точки зрения потенциальной ценности для корпоративных сценариев.
Например, в промышленности или лабораториях ИИ, который может в реальном времени мониторить видео, способен в момент обнаружения нарушений безопасности автоматически подавать сигнал тревоги — без ожидания, пока сотрудники начнут спрашивать. В сфере голосового клиентского сервиса существующие системы обычно имеют задержку обработки в 1–2 секунды, и именно это чаще всего является самой прямой «болью» пользователей. Скорость ответа в 0,4 секунды, как ожидается, сможет принципиально решить эту проблему.
На данный момент TML-Interaction-Small и его комплект фоновых моделей доступны только небольшой группе партнёров для исследовательского превью; публичная версия планируется к выходу позже в этом году. Thinking Machines также объявила о запуске программы исследовательских грантов, чтобы побудить академическое сообщество разрабатывать новые фреймворки для оценки качества интерактивного взаимодействия.
От текучести кадров к устойчивому росту: следующий шаг Thinking Machines Lab
Thinking Machines Lab, основанная в 2025 году, привлекла внимание в начале года — после того как несколько основателей ушли в Meta, а бывшего основателя PyTorch и старшего инженера Meta Соумита Чинталы назначили техническим директором. Сейчас численность сотрудников уже выросла примерно до 130 человек.
(Зукерберг переманил и получил поражение: кто такой Andrew Tulloch, отказавшийся от предложения Meta на 1,5 миллиарда долларов за шесть лет?)
В марте этого года компания также объявила о сотрудничестве с Nvidia по развёртыванию как минимум одной «гига-ватт» новой системы Vera Rubin и расширила сотрудничество с Google Cloud, продвигая исследования обучения передовых моделей и подкрепления (reinforcement learning).
Эта статья о том, что стомиллиардная стартап-компания Thinking Machines представила модель ИИ для интерактивного взаимодействия в реальном времени, с акцентом на «говори–слушай–делай задачи», впервые появилась на Lianxin ABMedia.
Связанные статьи
Живой «Трансформеры»! Uxu Technology представила первого в мире серийного робота-носителя, цена — 570 тыс. долларов
Thinking Machines Model Ties GPT-Realtime-2 за первое место в аудиобенчмарке сегодня, набрав 43,4% APR Score
Артур Хейс предсказывает, что BTC вернётся к $126 000 на фоне гонки ИИ вооружений между США и Китаем и «военной» инфляции
HrdWyr привлекает $13M раунд серии A для разработки AI Chip Development
Рост AI-вакансий в Индии на 15–20%, заявил министр на саммите CII
Проект OpenAI, по прогнозам, позволит сэкономить Microsoft $97 миллиардов на платежах к 2030 году по новому соглашению