O observador de IA chinês xiaohu partilhou a 10 de maio um exemplo de um fluxo de trabalho que combina GPT e Gemini 3.1 Pro: primeiro, usar GPT para gerar imagens e, depois, usar Gemini 3.1 Pro para transformar as imagens em conteúdo 3D interativo, que pode transformar qualquer tema de conhecimento em aplicações científicas rotativas e operacionais. Os exemplos mostrados no tweet de xiaohu incluem demonstrações de planetas 3D e modelos científicos interativos, entre outros — uma prática concreta de um “fluxo de trabalho multi-modelo” (multi-model workflow).
Estrutura do fluxo de trabalho: GPT a gerar imagens → Gemini 3.1 Pro a torná-las em 3D
A estrutura de todo o fluxo de trabalho é composta por duas fases:
Fase um: usar GPT (GPT-image-1 ou a geração de imagens integrada no ChatGPT) para produzir imagens base do tema e fornecer suporte visual
Fase dois: inserir a imagem no Gemini 3.1 Pro, para o Gemini transformar a imagem 2D em conteúdo 3D interativo
Formato de saída: objectos 3D rotativos, ampliáveis e interactivos dentro do navegador
Cenários de aplicação: educação científica, demonstração de produtos, conteúdos de interacção com conhecimento
“Fluxo de trabalho multi-modelo” é uma das principais tendências na camada de aplicações de IA de 2026 — já não é o caso de um único modelo ser uma solução para tudo. Os programadores ligam as partes mais fortes de diferentes modelos e criam aplicações que um único modelo não conseguiria fazer.
Demonstração concreta: planetas 3D, conteúdos científicos interactivos, sites de venda de robôs
Vários exemplos publicados em simultâneo por xiaohu:
Demonstração de planetas 3D: um sistema solar rotativo ou um modelo de planeta único
Conteúdo científico interactivo: transformar conhecimentos abstractos em visualizações 3D, adequado para fins educativos
Site futuro de máquinas de venda por robôs: usar imagens geradas pelo GPT e adicionar a plataforma Tripo 3D para criar páginas web de carácter demonstrativo
As características comuns destes exemplos são “geração visual + transformação interactiva”: o GPT é responsável pela criatividade e visualização, enquanto o Gemini ou outras ferramentas 3D são responsáveis por transformar imagens estáticas em formas interactivas e operacionais. Isoladamente, cada passo não é novidade, mas, em conjunto, a experiência final é superior à de qualquer ferramenta única.
Significado: fluxos de trabalho multi-modelo estão a tornar-se numa abordagem de desenvolvimento dominante
Implicações concretas para os programadores:
Escolher as ferramentas certas é mais importante do que escolher o modelo mais forte — o GPT é forte em visual, o Gemini em compreensão multimodal, o Claude em contextos longos; cada um tem os seus pontos fortes
Os custos de integração das APIs dos modelos baixam, e ligar vários modelos ao nível da implementação torna-se viável
Aplicações novas são provavelmente “pipelines multi-modelo”, e não uma extensão do “melhor modelo único”
O valor desta proposta não está numa ruptura tecnológica, mas num modelo de design de fluxo de trabalho
Eventos concretos a acompanhar no futuro: se a capacidade de geração 3D do Gemini 3.1 Pro for anunciada oficialmente pela Google como funcionalidade de produto em actividades subsequentes; se o fluxo de trabalho multi-modelo receber suporte de templates predefinidos em frameworks como LangChain/LlamaIndex; e exemplos concretos de adopção em casos de comercialização (como educação, comércio electrónico e marketing).
Este artigo em que xiaohu demonstra um fluxo de trabalho multi-modelo (GPT a gerar imagens + Gemini 3.1 Pro a transformar em conteúdo 3D interativo) apareceu pela primeira vez em 鏈新聞 ABMedia.
Related Articles
Blockify reescreve o RAG para empresas: usa o IdeaBlock em vez de chunking, comprime 40 vezes e reduz o token em 3 vezes
A Alibaba vai integrar a IA Qwen no Taobao, lançando um serviço de compras com IA com 4 mil milhões de produtos
DMG Blockchain cria subsidiária DMG Infrastructure para operações de IA e HPC
A Spotify lança hoje um recurso de podcasts pessoais gerados por IA, permitindo guardar na biblioteca
A Benzinga Lança um Motor de Tradução em Coreano e um Conjunto de Dados Financeiros de IA com 400 Mil Palavras
A FLock.io participa no encontro do Oxford Roundtable para impulsionar o MoU de IA soberana de Sarawak