Xiaohu demuestra un flujo de trabajo entre modelos: GPT para generar imágenes + Gemini 3.1 Pro para convertirlas en contenido 3D interactivo

El observador de IA en chino xiaohu compartió el 10 de mayo un ejemplo de flujo de trabajo que combina GPT y Gemini 3.1 Pro: primero usa GPT para generar imágenes y luego Gemini 3.1 Pro para convertir esas imágenes en contenido interactivo 3D; puede convertir cualquier tema de conocimiento en aplicaciones científicas girables y accionables. Los ejemplos mostrados en el tuit de xiaohu incluyen demostraciones de planetas 3D, modelos científicos interactivos, etc.; es una práctica concreta de un “flujo de trabajo entre modelos” (multi-model workflow).

Estructura del flujo de trabajo: GPT para generar imágenes → Gemini 3.1 Pro para convertir a 3D

El diseño de todo el flujo de trabajo en dos fases:

Fase 1: usar GPT (GPT-image-1 o la generación de imágenes integrada en ChatGPT) para producir imágenes temáticas y proporcionar una base visual

Fase 2: introducir las imágenes en Gemini 3.1 Pro, y que Gemini convierta las imágenes 2D en contenido interactivo 3D

Formato de salida: objetos 3D que se pueden rotar, hacer zoom e interactuar dentro del navegador

Casos de uso: educación científica, exhibición de productos, contenido de conocimiento interactivo

El “flujo de trabajo entre modelos” es una de las tendencias clave de la capa de aplicaciones de IA en 2026: ya no existe un único modelo que lo resuelva todo; los desarrolladores conectan las partes más fuertes de distintos modelos para crear aplicaciones que un solo modelo no puede lograr.

Demostración concreta: planetas 3D, contenido científico interactivo, sitio web de venta de robots

Múltiples ejemplos publicados simultáneamente por xiaohu:

Demostración de planetas 3D: un sistema solar rotatorio o un modelo de un solo planeta

Contenido científico interactivo: convertir conocimiento abstracto en visualizaciones 3D, aptas para fines educativos

Sitio web futuro de máquina expendedora de robots: usar generación de imágenes con GPT más la plataforma Tripo 3D para crear páginas web de tipo demostración

Las características comunes de estos ejemplos son “generación visual + conversión interactiva”: GPT se encarga de la creatividad visual y Gemini u otras herramientas 3D se encargan de convertir imágenes estáticas en formas interactivas accionables. Cada parte por separado no es algo nuevo, pero al encadenarlas, la experiencia final es más potente que la de cualquier herramienta individual.

Significado: el flujo de trabajo entre modelos se está convirtiendo gradualmente en el modo de desarrollo principal

Implicaciones concretas para desarrolladores:

Elegir la herramienta correcta importa más que elegir el modelo más potente: GPT para visión, Gemini para comprensión multimodal, Claude para contextos largos; cada uno tiene su punto dulce

Bajan los costos de integración de APIs de modelos y resulta viable enlazar varios modelos a nivel de implementación

Es probable que las aplicaciones nuevas sean “pipelines entre modelos”, más que una extensión de “un solo modelo más fuerte”

El valor de este caso no está en un avance tecnológico, sino en el molde del diseño de flujo de trabajo

Eventos concretos que se pueden seguir después: si la capacidad de generación 3D de Gemini 3.1 Pro se anunciará oficialmente como función de producto por Google en actividades posteriores; si el flujo de trabajo entre modelos obtendrá soporte con plantillas predeterminadas en marcos como LangChain / LlamaIndex; y ejemplos concretos de adopción en casos de negocio (como educación, comercio electrónico, marketing).

Este artículo de xiaohu demostrando el flujo de trabajo entre modelos: “GPT para generar imágenes + Gemini 3.1 Pro para convertirlas a contenido interactivo 3D” apareció por primera vez en Cadena News ABMedia.

Aviso legal: La información de esta página puede proceder de terceros y no representa los puntos de vista ni las opiniones de Gate. El contenido que aparece en esta página es solo para fines informativos y no constituye ningún tipo de asesoramiento financiero, de inversión o legal. Gate no garantiza la exactitud ni la integridad de la información y no se hace responsable de ninguna pérdida derivada del uso de esta información. Las inversiones en activos virtuales conllevan riesgos elevados y están sujetas a una volatilidad significativa de los precios. Podrías perder todo el capital invertido. Asegúrate de entender completamente los riesgos asociados y toma decisiones prudentes de acuerdo con tu situación financiera y tu tolerancia al riesgo. Para obtener más información, consulta el Aviso legal.

Artículos relacionados

Karpathy CLAUDE.md choca con 126K de estrellas: resumen de 12 reglas avanzadas para la comunidad

13 de abril, ABMedia informó que Forrest Chang convirtió las quejas de Karpathy sobre Claude al escribir código en un paquete de «4 reglas de CLAUDE.md», con 15.000 estrellas acumuladas en GitHub en ese momento; el 12 de mayo, el número de estrellas de ese repo ya superaba las 126.000, creciendo 8 veces en menos de 1 mes. A raíz de ello, la comunidad comenzó a aparecer con muchos intentos de «versiones ampliadas»; entre ellos, el post «Añadir 8 reglas sobre la base de las 4 para convertirlo en u

ChainNewsAbmediaHace43m

Douban Input Method se lanza en macOS con voz impulsada por IA y escritura bilingüe

Según Beating, el método de entrada de Douban de ByteDance se ha lanzado oficialmente en su versión para macOS. Anteriormente disponible solo en iOS y Android, la aplicación de escritorio integra el modelo de voz propietario de Douban, con reconocimiento de dialectos, entrada de tono y transcripción mixta chino-inglés con filtrado automático de redundancias verbales. La versión de macOS también incluye corrección de errores para textos largos y sugerencias inteligentes dependientes del contexto

GateNewshace2h

Infini se une al programa Circle Alliance

Según Foresight News, el sistema operativo financiero impulsado por IA Infini se ha unido al Circle Alliance Program. La iniciativa reúne a empresas fintech, instituciones financieras tradicionales, aplicaciones de consumo, proveedores de pagos, bancos y protocolos Web3 mediante stablecoins de Circle y servicios Web3. El programa busca impulsar los sistemas financieros de internet, ampliar la adopción de USDC y mejorar los pagos transfronterizos y los servicios financieros digitales.

GateNewshace5h

Okratech y Delphi AI integran IA predictiva en el ecosistema $ORT Ecosystem el 11 de mayo

De acuerdo con un anuncio oficial del 11 de mayo, Okratech y Delphi AI se han asociado para integrar la inteligencia predictiva de mercados impulsada por IA en el ecosistema de Okratech. Los sistemas de pronóstico de Delphi AI se integrarán en la plataforma $ORT , cubriendo criptomonedas, acciones y políticas económicas globales. La integración se aplicará a OrtJob, el mercado descentralizado de freelancers de Okratech, y a la Web3 App Store, brindando a los usuarios información basada en datos

GateNewshace8h

Fundador de Telegram: Acton reemplaza el conjunto de herramientas dispersas y acelera 10 veces el ritmo de desarrollo de contratos inteligentes en TON

De acuerdo con el anuncio en X del 12 de mayo de Pavel Durov, fundador de Telegram, TON Core ha lanzado una cadena unificada de herramientas de contratos inteligentes llamada Acton; la herramienta ya se puso en marcha el 8 de mayo. Durov afirma que Acton acelera 10 veces el desarrollo de contratos inteligentes en TON, al sustituir el anterior conjunto de herramientas fragmentado de TON por un flujo de desarrollo unificado, y además es compatible con IA. Funciones principales y arquitectura técni

MarketWhisperhace10h
Comentar
0/400
Sin comentarios