中国語のAI観察者のxiaohuは5月10日に、GPTとGemini 3.1 Proを組み合わせたワークフローの実例を共有した。まずGPTで画像を生成し、その後Gemini 3.1 Proで画像を3Dのインタラクティブなコンテンツへ変換する。この仕組みなら、あらゆる知識テーマを回転でき、操作できる科学アプリケーションにできる。xiaohuの投稿で紹介された例には3D惑星のデモやインタラクティブな科学モデルなどが含まれ、「クロスモデルのワークフロー」(multi-model workflow)の具体的な実践となっている。
ワークフローの構造:GPTで画像生成 → Gemini 3.1 Proで3D化
ワークフロー全体の2段階設計:
段階1:GPT(GPT-image-1 またはChatGPT内蔵の画像生成)でテーマ画像を作り、視覚的な土台を用意する
段階2:画像をGemini 3.1 Proに入力し、Geminiが2D画像を3Dのインタラクティブコンテンツへ変換する
出力形式:ブラウザ内で回転・ズーム・操作ができる3Dオブジェクト
適用シーン:科学教育、プロダクト展示、知識のインタラクティブコンテンツ
「クロスモデルのワークフロー」は2026年のAIアプリケーション層における重要なトレンドの1つ——単一モデルではもはや万能ではなく、開発者は複数のモデルの強みをつなぎ合わせて、単一モデルでは実現できないアプリを作る。
具体的なデモ:3D惑星、インタラクティブな科学コンテンツ、ロボットの物販サイト
xiaohuが同時に公開した複数の例:
3D惑星のデモ:回転できる太陽系、または単一の惑星モデル
インタラクティブな科学コンテンツ:抽象的な知識を3Dで可視化し、教育用途に適している
ロボット自販機の未来サイト:GPTで画像生成し、Tripo 3Dプラットフォームを使って展示用のWebページを作る
これらの例に共通する特徴は「視覚生成+インタラクティブ変換」——GPTが創造的なビジュアルを担当し、Geminiやその他の3Dツールが静的な画像を操作可能なインタラクティブ形式へ変える。各要素を単体で取り出せば新規性はないが、つなぎ合わせた最終体験は、どんな単一ツールよりも強い。
意義:クロスモデルのワークフローが徐々に主流の開発方式になっていく
開発者への具体的な示唆:
適切なツールを選ぶことが、最強モデルを選ぶことより重要——GPTは視覚が得意、Geminiはマルチモーダル理解が得意、Claudeはロングコンテキストが得意で、各々が得意な領域(スイートスポット)を持っている
モデルAPIの統合コストが下がり、複数モデルを連携して実装レベルで現実的になる
新しいタイプのアプリは「マルチモデル・パイプライン」になりやすく、「最強単一モデル」の延長ではない可能性が高い
本案件の価値は技術的ブレークスルーではなく、ワークフロー設計のテンプレートにある
今後追跡できる具体的な出来事:Gemini 3.1 Proの3D生成能力が、Googleの今後のイベントで製品機能として正式に告知されるのか、クロスモデルのワークフローがLangChain/LlamaIndexなどのフレームワークでデフォルトのテンプレート対応を得られるのか、そして商用事例(教育、EC、販促)での具体的な採用例があるのか。
この記事でxiaohuが示したクロスモデルのワークフロー:GPTで画像生成+Gemini 3.1 Proで3Dのインタラクティブコンテンツに変換 は最初に 鏈新聞 ABMedia に掲載された。
Related News
Anthropic コードモード 解:MCP と CLI の争い—ツールが Runtime に常駐し、トークンを 150K から 2K へ圧縮
Garry Tan:現在、私はAIにプロンプトをほとんど出していません!YCの執行長が「複利化できるAIワークフロー」を分析
Anthorpic は金融専用の AI Agent を推進しており、関係者は Claude がアナリストを代替できない重要な点を明かした
輝達 Space Computing 生態鏈の出炉(拠点網)で、Space-1 Vera Rubin はデータセンター級のAI計算力を宇宙へ送り込む
OpenAIのGPT-5.5-Cyberがサイバー防御者に武装する