Созданная Thinking Machines представила интерактивную AI-модель в реальном времени, продвигая подход «говори, слушай и выполняй»

2026-05-12 07:44:18

Базирующаяся на искусственном интеллекте стартап-компания Thinking Machines, основанная ранее руководителями OpenAI — Мира Мурати и Джоном Шульманом — и оцененная в десятки миллиардов долларов, во вторник представила превью своей первой модели в режиме «говори и слушай одновременно»: полноценного дуплекса с задержкой до 0,4 секунды, бросающей вызов существующим сценариям взаимодействия человека и машины в реальном времени.

(Нвидиа инвестировала в Thinking Machines Lab и развернула Vera Rubin, чтобы повысить эффективность передовых моделей)

Новая модель Thinking Machines: ломает старую схему «по очереди»

У всех существующих ведущих моделей ИИ схема работы одинаковая: «пользователь вводит, модель ждёт, а затем отвечает». Мира Мурати, бывший технический директор OpenAI, и Джон Шульман, сооснователь OpenAI, считают, что этот процесс поочерёдных ответов больше похож на обмен сообщениями, а не на настоящий диалог. Теперь, объединив усилия, двое основателей создали Thinking Machines Lab, которое 11 мая официально представило исследовательское превью новой категории «интерактивных моделей (Interaction Models)» — попытку изменить ситуацию принципиально.

People talk, listen, watch, think, and collaborate at the same time, in real time. We’ve designed an AI that works with people the same way.

We share our approach, early results, and a quick look at our model in action. pic.twitter.com/uxl1InS6Ay

— Thinking Machines (@thinkymachines) May 11, 2026

Thinking Machines отмечает, что современные модели ИИ «воспринимают реальность в одном потоке»: пока пользователь не закончил говорить, модель может только ждать; пока модель не сгенерировала ответ целиком, восприятие «замораживается». Такой дизайн стал узким местом в совместной работе человека и машины, из-за чего взаимодействие с ИИ получается недостаточно естественным, как при разговоре с реальным собеседником.

Двое основателей полагают, что решение не в «латании» старой архитектуры внешними компонентами, а в том, чтобы с нуля обучить модель, изначально поддерживающую интерактивность в реальном времени.

Полно-дуплексная архитектура: ИИ, который умеет делать два дела одновременно

Модель, представленная Thinking Machines, называется TML-Interaction-Small. Это гибридная модель архитектуры mixture-of-experts (MoE): 276 миллиардов параметров, при этом на практике запуск в работе задействует 12 миллиардов параметров. Система обрабатывает вход и генерацию выходов в чередующемся режиме с шагом по 200 миллисекунд, без каких-либо искусственных границ «очереди». Так действительно реализуется так называемый «полный дуплекс (Full Duplex)» — как в телефонном разговоре, а не как в обмене сообщениями.

Система использует двухмодельный подход: «интерактивная модель» отвечает за живой диалог, подхват реплик и ответы; «фоновая модель» асинхронно выполняет сложное рассуждение, веб-поиск и вызовы инструментов, а затем без шва встраивает результаты в текущий разговор. Это позволяет ИИ в процессе говорения или слушания незаметно завершать назначенные задачи — поиск или построение графиков.

Бенчмарки: полностью обойти OpenAI и Google

В объявлении говорится, что в стандартном тесте FD-bench, оценивающем качество интерактивного взаимодействия ИИ, задержка «перехода хода» для TML-Interaction-Small составляет 0,40 секунды, что близко к скорости реакции человека в естественном диалоге. Это заметно лучше, чем 0,57 секунды у Google Gemini-3.1-flash-live и 1,18 секунды у GPT-realtime-2.0.

Тёмный цвет означает лидера по каждой таблице, светлый — лучшего в моделях реального времени

В дополнение к собственным тестам команды, специально разработанным под новые возможности интерактивности, в задаче «временное восприятие (TimeSpeak)» точность TML-Interaction-Small достигает 64,7%, тогда как у GPT-realtime-2.0 — всего 4,3%; в задаче «голосовой триггер» (CueSpeak) первый показатель составляет 81,7%, второй — лишь 2,9%; в задаче «визуальный счёт» (RepCount-A) у первого — 35,4%, а у второго почти ноль (1,3%).

Thinking Machines заявляет, что ни одна существующая коммерческая модель не способна осмысленно выполнить эти задачи, включая высокоуровневые «thinking»-модели OpenAI и Google.

Потенциал для бизнеса: от клиентского сервиса до мониторинга безопасности

Помимо более естественного повседневного опыта общения, эта технология представляет интерес и с точки зрения потенциальной ценности для корпоративных сценариев.

Например, в промышленности или лабораториях ИИ, который может в реальном времени мониторить видео, способен в момент обнаружения нарушений безопасности автоматически подавать сигнал тревоги — без ожидания, пока сотрудники начнут спрашивать. В сфере голосового клиентского сервиса существующие системы обычно имеют задержку обработки в 1–2 секунды, и именно это чаще всего является самой прямой «болью» пользователей. Скорость ответа в 0,4 секунды, как ожидается, сможет принципиально решить эту проблему.

На данный момент TML-Interaction-Small и его комплект фоновых моделей доступны только небольшой группе партнёров для исследовательского превью; публичная версия планируется к выходу позже в этом году. Thinking Machines также объявила о запуске программы исследовательских грантов, чтобы побудить академическое сообщество разрабатывать новые фреймворки для оценки качества интерактивного взаимодействия.

От текучести кадров к устойчивому росту: следующий шаг Thinking Machines Lab

Thinking Machines Lab, основанная в 2025 году, привлекла внимание в начале года — после того как несколько основателей ушли в Meta, а бывшего основателя PyTorch и старшего инженера Meta Соумита Чинталы назначили техническим директором. Сейчас численность сотрудников уже выросла примерно до 130 человек.

(Зукерберг переманил и получил поражение: кто такой Andrew Tulloch, отказавшийся от предложения Meta на 1,5 миллиарда долларов за шесть лет?)

В марте этого года компания также объявила о сотрудничестве с Nvidia по развёртыванию как минимум одной «гига-ватт» новой системы Vera Rubin и расширила сотрудничество с Google Cloud, продвигая исследования обучения передовых моделей и подкрепления (reinforcement learning).

Эта статья о том, что стомиллиардная стартап-компания Thinking Machines представила модель ИИ для интерактивного взаимодействия в реальном времени, с акцентом на «говори–слушай–делай задачи», впервые появилась на Lianxin ABMedia.

Дисклеймер: Информация на этой странице может быть получена из источников третьих сторон и предоставляется только для ознакомления. Она не отражает взгляды или мнения Gate и не является финансовой, инвестиционной или юридической рекомендацией. Торговля виртуальными активами связана с высоким риском. Пожалуйста, не основывайте свои решения исключительно на данных этой страницы. Подробнее смотрите в Дисклеймере.

Связанные новости

05-12 01:51

OpenAI запускает $4B компанию по развертыванию и приобретает Tomoro

05-12 00:45

Thinking Machines запускает модель взаимодействия с откликом 200 мс, опережая GPT-Realtime-2.0

05-11 12:21

Cerebras Systems планирует IPO для привлечения до $4,8B, цена акций — $150–160, 11 мая

Связанные статьи

Google: крупные языковые модели используются для реальных атак, AI может обходить механизмы безопасности двухфакторной аутентификации

Market Whisper05-12 06:28

Cerebras IPO стимулирует цепочку поставок: нарратив про питание Vicor и тема лицензирования AI power IP

ChainNewsAbmedia05-12 05:06

Официальное объявление OpenAI: DeployCo официально создана, первоначальный взнос превысил 4 млрд долларов

Market Whisper05-12 02:49

OpenAI тоже пошла по пути Palantir в роли консультанта? Вложила 4 миллиарда долларов в создание независимой компании и направила FDE для глубокой интеграции AI-рабочих процессов в компании

ChainNewsAbmedia05-11 14:34

OpenAI запускает компанию по развертыванию Deployment Company на 4 миллиарда долларов: приобретает Tomoro

ChainNewsAbmedia05-11 14:24

комментарий

0/400

Нет комментариев