Созданная Thinking Machines представила интерактивную AI-модель в реальном времени, продвигая подход «говори, слушай и выполняй»

Базирующаяся на искусственном интеллекте стартап-компания Thinking Machines, основанная ранее руководителями OpenAI — Мира Мурати и Джоном Шульманом — и оцененная в десятки миллиардов долларов, во вторник представила превью своей первой модели в режиме «говори и слушай одновременно»: полноценного дуплекса с задержкой до 0,4 секунды, бросающей вызов существующим сценариям взаимодействия человека и машины в реальном времени.

(Нвидиа инвестировала в Thinking Machines Lab и развернула Vera Rubin, чтобы повысить эффективность передовых моделей)

Новая модель Thinking Machines: ломает старую схему «по очереди»

У всех существующих ведущих моделей ИИ схема работы одинаковая: «пользователь вводит, модель ждёт, а затем отвечает». Мира Мурати, бывший технический директор OpenAI, и Джон Шульман, сооснователь OpenAI, считают, что этот процесс поочерёдных ответов больше похож на обмен сообщениями, а не на настоящий диалог. Теперь, объединив усилия, двое основателей создали Thinking Machines Lab, которое 11 мая официально представило исследовательское превью новой категории «интерактивных моделей (Interaction Models)» — попытку изменить ситуацию принципиально.

People talk, listen, watch, think, and collaborate at the same time, in real time. We’ve designed an AI that works with people the same way.

We share our approach, early results, and a quick look at our model in action. pic.twitter.com/uxl1InS6Ay

— Thinking Machines (@thinkymachines) May 11, 2026

Thinking Machines отмечает, что современные модели ИИ «воспринимают реальность в одном потоке»: пока пользователь не закончил говорить, модель может только ждать; пока модель не сгенерировала ответ целиком, восприятие «замораживается». Такой дизайн стал узким местом в совместной работе человека и машины, из-за чего взаимодействие с ИИ получается недостаточно естественным, как при разговоре с реальным собеседником.

Двое основателей полагают, что решение не в «латании» старой архитектуры внешними компонентами, а в том, чтобы с нуля обучить модель, изначально поддерживающую интерактивность в реальном времени.

Полно-дуплексная архитектура: ИИ, который умеет делать два дела одновременно

Модель, представленная Thinking Machines, называется TML-Interaction-Small. Это гибридная модель архитектуры mixture-of-experts (MoE): 276 миллиардов параметров, при этом на практике запуск в работе задействует 12 миллиардов параметров. Система обрабатывает вход и генерацию выходов в чередующемся режиме с шагом по 200 миллисекунд, без каких-либо искусственных границ «очереди». Так действительно реализуется так называемый «полный дуплекс (Full Duplex)» — как в телефонном разговоре, а не как в обмене сообщениями.

Система использует двухмодельный подход: «интерактивная модель» отвечает за живой диалог, подхват реплик и ответы; «фоновая модель» асинхронно выполняет сложное рассуждение, веб-поиск и вызовы инструментов, а затем без шва встраивает результаты в текущий разговор. Это позволяет ИИ в процессе говорения или слушания незаметно завершать назначенные задачи — поиск или построение графиков.

Бенчмарки: полностью обойти OpenAI и Google

В объявлении говорится, что в стандартном тесте FD-bench, оценивающем качество интерактивного взаимодействия ИИ, задержка «перехода хода» для TML-Interaction-Small составляет 0,40 секунды, что близко к скорости реакции человека в естественном диалоге. Это заметно лучше, чем 0,57 секунды у Google Gemini-3.1-flash-live и 1,18 секунды у GPT-realtime-2.0.

Тёмный цвет означает лидера по каждой таблице, светлый — лучшего в моделях реального времени

В дополнение к собственным тестам команды, специально разработанным под новые возможности интерактивности, в задаче «временное восприятие (TimeSpeak)» точность TML-Interaction-Small достигает 64,7%, тогда как у GPT-realtime-2.0 — всего 4,3%; в задаче «голосовой триггер» (CueSpeak) первый показатель составляет 81,7%, второй — лишь 2,9%; в задаче «визуальный счёт» (RepCount-A) у первого — 35,4%, а у второго почти ноль (1,3%).

Thinking Machines заявляет, что ни одна существующая коммерческая модель не способна осмысленно выполнить эти задачи, включая высокоуровневые «thinking»-модели OpenAI и Google.

Потенциал для бизнеса: от клиентского сервиса до мониторинга безопасности

Помимо более естественного повседневного опыта общения, эта технология представляет интерес и с точки зрения потенциальной ценности для корпоративных сценариев.

Например, в промышленности или лабораториях ИИ, который может в реальном времени мониторить видео, способен в момент обнаружения нарушений безопасности автоматически подавать сигнал тревоги — без ожидания, пока сотрудники начнут спрашивать. В сфере голосового клиентского сервиса существующие системы обычно имеют задержку обработки в 1–2 секунды, и именно это чаще всего является самой прямой «болью» пользователей. Скорость ответа в 0,4 секунды, как ожидается, сможет принципиально решить эту проблему.

На данный момент TML-Interaction-Small и его комплект фоновых моделей доступны только небольшой группе партнёров для исследовательского превью; публичная версия планируется к выходу позже в этом году. Thinking Machines также объявила о запуске программы исследовательских грантов, чтобы побудить академическое сообщество разрабатывать новые фреймворки для оценки качества интерактивного взаимодействия.

От текучести кадров к устойчивому росту: следующий шаг Thinking Machines Lab

Thinking Machines Lab, основанная в 2025 году, привлекла внимание в начале года — после того как несколько основателей ушли в Meta, а бывшего основателя PyTorch и старшего инженера Meta Соумита Чинталы назначили техническим директором. Сейчас численность сотрудников уже выросла примерно до 130 человек.

(Зукерберг переманил и получил поражение: кто такой Andrew Tulloch, отказавшийся от предложения Meta на 1,5 миллиарда долларов за шесть лет?)

В марте этого года компания также объявила о сотрудничестве с Nvidia по развёртыванию как минимум одной «гига-ватт» новой системы Vera Rubin и расширила сотрудничество с Google Cloud, продвигая исследования обучения передовых моделей и подкрепления (reinforcement learning).

Эта статья о том, что стомиллиардная стартап-компания Thinking Machines представила модель ИИ для интерактивного взаимодействия в реальном времени, с акцентом на «говори–слушай–делай задачи», впервые появилась на Lianxin ABMedia.

Отказ от ответственности: Информация на этой странице может поступать от третьих лиц и не отражает взгляды или мнения Gate. Содержание, представленное на этой странице, предназначено исключительно для справки и не является финансовой, инвестиционной или юридической консультацией. Gate не гарантирует точность или полноту информации и не несет ответственности за любые убытки, возникшие от использования этой информации. Инвестиции в виртуальные активы несут высокие риски и подвержены значительной ценовой волатильности. Вы можете потерять весь инвестированный капитал. Пожалуйста, полностью понимайте соответствующие риски и принимайте разумные решения, исходя из собственного финансового положения и толерантности к риску. Для получения подробностей, пожалуйста, обратитесь к Отказу от ответственности.

Связанные статьи

Живой «Трансформеры»! Uxu Technology представила первого в мире серийного робота-носителя, цена — 570 тыс. долларов

Компания по производству роботов из Ханчжоу Unitree Robotics (Unitree Robotics) 12 мая представила свой новый продукт GD01 — пилотируемый мех, который может свободно переключаться между режимами двуногого человекоподобного хождения и четвероногого лазания. Можно сказать, что это перенесло на реальность кинематографические кадры из научно‑фантастических блокбастеров «Трансформеры» и «Тихоокеанский рубеж». На этот раз релиз — это не только технологическое зрелище, но и наглядное отражение того, ка

ChainNewsAbmedia49м назад

Thinking Machines Model Ties GPT-Realtime-2 за первое место в аудиобенчмарке сегодня, набрав 43,4% APR Score

Согласно последнему бенчмарку Audio MC S2S от Scale Labs, опубликованному сегодня, модель Thinking Machines TML-Interaction-Small набрала 43,36 балла, разделив первое место с моделью OpenAI GPT-Realtime-2 (xHigh) — 43,4% по шкале APR. Абсолютный лидер по результатам, GPT-Realtime-2 (xHigh), набрал 48,45 балла, тогда как TML-Interaction-Small следовала за ним с 43,36 балла; разница попала в пределы статистической погрешности, поэтому официально было объявлено равенство за первое место.

GateNews1ч назад

Артур Хейс предсказывает, что BTC вернётся к $126 000 на фоне гонки ИИ вооружений между США и Китаем и «военной» инфляции

Как сообщает Odaily, Артур Хейс опубликовал статью под названием «The Butterfly Touch» 12 мая, в которой спрогнозировал, что биткоин вернется к $126 000 в результате конкуренции США и Китая в сфере ИИ-капитальных затрат, а также инфляции, подпитываемой войной. Хейс заявил, что криптовый рынок быков официально стартовал после военного удара США по Ирану 28 февраля 2026 года, при этом биткоин уже сформировал базу около $60 000. Он ожидает ускорения роста после пробоя $90 000. Хейс назвал три факто

GateNews1ч назад

HrdWyr привлекает $13M раунд серии A для разработки AI Chip Development

Базирующаяся в Бангалоре fabless-стартап по производству чипов HrdWyr привлёк 13 миллионов долларов в рамках раунда Series A, который возглавила бангладорская венчурная компания Ideaspring Capital, 12 мая. В раунде также участвовали Singularity AMC, Avatar Growth Capital и Persistent Systems. Компания планирует использовать привлечённые средства для разработки своих AI-native продуктов system-on-chip и расширения взаимодействия с клиентами на глобальных рынках, с фокусом на приложения для edge c

CryptoFrontier1ч назад

Рост AI-вакансий в Индии на 15–20%, заявил министр на саммите CII

Министр Союза по электронике и ИТ Индии Ашвини Ваишнау объявил, что число рабочих мест, связанных с ИИ, растёт на 15%–20% — по отзывам ИТ-индустрии — во время выступления на CII Annual Business Summit. Он призвал компании сотрудничать с Nasscom, чтобы обучать работников новым технологиям, поскольку ИТ-сектор проходит трансформацию. Министр также отметил крупные инвестиционные обязательства и планы расширения инфраструктуры, направленные на то, чтобы позиционировать Индию как глобальный хаб ИИ и

CryptoFrontier1ч назад

Проект OpenAI, по прогнозам, позволит сэкономить Microsoft $97 миллиардов на платежах к 2030 году по новому соглашению

По данным The Information, OpenAI, как ожидается, сможет сэкономить примерно 97 миллиардов долларов на платежах в Microsoft к 2030 году по пересмотренному соглашению о партнёрстве, согласованному в октябре прошлого года. Финансовый директор Сара Фрайар сообщила инвесторам, что компания планирует делиться 8-10% выручки со всеми коммерческими партнёрами, включая Microsoft, вместо текущих 20%.

GateNews1ч назад
комментарий
0/400
Нет комментариев