百億新創 Thinking Machines が発表した即時インタラクティブな AI モデルは、「話しながら聴いて、作業しながら進める」を売りにしています

ChainNewsAbmedia

前 OpenAI の前幹部である Mira Murati と John Schulman によって共同創業され、評価額が100億ドルにのぼる人工知能スタートアップの Thinking Machines は、火曜日に、話しながら聞く(「邊說邊聽」)ことを可能にした最初の全二重(フルデュプレックス)AIモデルのプレビュー版を発表し、遅延は0.4秒まで低減、既存の人機のリアルタイム・インタラクション方式に挑戦する。

(NVIDIA が出資する Thinking Machines Lab は Vera Rubin を導入し、最先端モデルの性能を引き上げる)

Thinking Machines の新モデル:交互に話す“旧来の”方式を打ち破る

既存の主流すべての AI モデルは、その動作方式が「ユーザーが入力すると、モデルが待ち、そして応答する」です。前 OpenAI の技術責任者である Mira Murati と OpenAI の共同創業者 John Schulman は、このような交互の返信プロセスは、メッセージのやり取りに似ていて、真の対話ではないと考えています。いま、二人が共同で立ち上げた Thinking Machines Lab は、5月11日に新しい「インタラクション・モデル(Interaction Models)」の研究プレビュー版を正式に発表し、この現状を根本から変えようとしています。

人は同時に話し、聞き、見て、考え、そして協力します。リアルタイムで、私たちは同じやり方で人と働くAIを設計しました。

私たちはこのアプローチ、初期の成果、そしてモデルが動いている様子を簡単に共有します。pic.twitter.com/uxl1InS6Ay

— Thinking Machines (@thinkymachines) May 11, 2026

Thinking Machines は、現在の AI モデルが単一の実行スレッドで現実を認識していると指摘しています。ユーザーが話し終える前に、モデルは待つしかありません。モデルが生成を終える前に、認識が凍結してしまいます。この設計が人と機械の協働におけるボトルネックとなり、AI と対話する際に、まるで真人間と話しているような自然でスムーズなやり取りを難しくしています。

二人は、解決策は外部の部品で旧来の仕組みを継ぎ足すことではなく、最初からリアルタイムなインタラクションをネイティブに支援するモデルを訓練することにあると信じています。

全二重(フルデュプレックス)構成:一つで二役をこなせる AI システム

Thinking Machines が発表したモデルの名称は TML-Interaction-Small で、2,760億パラメータを持ち、実際の稼働時には120億パラメータが動く混合専門家(MoE)構成のモデルです。このシステムは200ミリ秒単位で、入力と生成出力を絶えず交互に処理し、人為的な“番”の境界を設定しません。いわゆる「全二重(Full Duplex)」の相互作用を、本当に電話のように実現するのであり、メッセージのやり取りではありません。

このシステムは双モデル設計を採用しています。「インタラクション・モデル」は、リアルタイムの会話、受け継ぎ(相づちや続きを即座に拾うこと)と応答を担当します。「バックグラウンド・モデル」は裏側で非同期に、複雑な推論、ネット検索、ツール呼び出しを行い、その結果を進行中の対話にシームレスに組み込みます。これにより、AI は話している最中であっても、聞いている最中であっても、割り当てられた検索や図表作成のタスクをひそかに完了させることができます。

ベンチマーク:OpenAI と Google を全面的に上回る

発表によると、AI のインタラクション品質を測る標準ベンチ FD-bench において、TML-Interaction-Small の“返答(交代)”遅延は0.40秒で、人間の自然な対話の反応速度にかなり近く、Google Gemini-3.1-flash-live の0.57秒、ならびに GPT-realtime-2.0 の1.18秒を大きく上回りました。

濃い色は各一覧で最も良い結果を示すものを表し、薄い色はリアルタイム・モデル内で最も良い結果を示すものを表す

さらに、同チームが新しいインタラクション能力のために設計した自前のテストでは、「時間感知(TimeSpeak)」タスクで TML-Interaction-Small の正答率は64.7%で、GPT-realtime-2.0 は4.3%にとどまります。「音声トリガー」タスク(CueSpeak)では、前者が81.7%、後者はわずか2.9%です。「視覚カウント」タスク(RepCount-A)では、前者が35.4%で、後者はほぼゼロ(1.3%)でした。

Thinking Machines は、現時点でどの商用モデルも、これらのタスクを意味のある形で完遂できないと指摘しています。OpenAI と Google の“思考版(thinking)”の上位モデルを含めてもです。

企業の活用可能性:コールセンターから安全監視まで

より自然な日常会話体験に加えて、この技術の企業シーンにおける潜在的な価値も注目に値します。

製造業や実験室の例を挙げれば、映像をリアルタイムに監視できる AI は、安全違反の瞬間を検知したら、作業者が尋ねるのを待たずに自動で警報を出せます。音声カスタマーサポートの領域では、既存のシステムは一般に1〜2秒の処理遅延があり、しばしばユーザーにとって最も直接的な不満点です。0.4秒の応答速度が、この問題を根本的に解決することが期待されています。

現時点で TML-Interaction-Small と、それに付随するバックグラウンド・モデルは、少数の協業パートナーに限って研究プレビューとして提供されています。公開版は今年の後半にリリースされる予定です。Thinking Machines は同時に、研究助成プログラムを開始し、学術コミュニティがインタラクションの品質を評価する新たな枠組みをさらに開発することを後押しすると発表しました。

人材の流動から安定した成長へ:Thinking Machines Lab の次の一手

2025年に設立された Thinking Machines Lab は、今年の少し前に複数の創業メンバーが Meta に移籍し、さらに PyTorch の創設者であり Meta のシニアエンジニアである Soumith Chintala が技術責任者に就任したことから、早くも外部の注目を集めました。現在の従業員規模は約130人まで成長しています。

(ザッカーバーグが引き抜いて完敗:Meta からの6年15億ドルのオファーを断った Andrew Tulloch は誰?)

今年3月、同社は Nvidia と提携し、少なくとも1ギガワット規模の新世代 Vera Rubin システムを導入することを発表し、さらに Google Cloud との協業を拡大して、最先端モデルの訓練および強化学習の研究を推進しています。

この記事 百億級スタートアップ Thinking Machines が即時インタラクションの AI モデルを発表、「話しながら聞いて、作業する」を掲げる内容は、最初に 鏈新聞 ABMedia に掲載されました。

免責事項:このページの情報は第三者から提供される場合があり、Gateの見解または意見を代表するものではありません。このページに表示される内容は参考情報のみであり、いかなる金融、投資、または法律上の助言を構成するものではありません。Gateは情報の正確性または完全性を保証せず、当該情報の利用に起因するいかなる損失についても責任を負いません。仮想資産への投資は高いリスクを伴い、大きな価格変動の影響を受けます。投資元本の全額を失う可能性があります。関連するリスクを十分に理解したうえで、ご自身の財務状況およびリスク許容度に基づき慎重に判断してください。詳細は免責事項をご参照ください。
コメント
0/400
コメントなし