Tencent open-sources the Hun Yuan World Model 2.0, a one-sentence generation that can walk into a 3D world, directly importable into Unity and UE

robot
Generación de resúmenes en curso

NOTICIAS ME, 16 de abril (UTC+8), según la monitorización de Dòngchá Beating, Tencent ha lanzado oficialmente y abierto el código del modelo de mundo 3D híbrido 2.0 (HY-World 2.0).
Este es un marco de modelo de mundo multimodal que soporta entrada de texto, una sola imagen, imágenes de múltiples vistas y videos, y la salida no es un video, sino activos 3D editables (modelos de malla, dispersión gaussiana 3D, nubes de puntos), que se pueden importar directamente en Unity, Unreal Engine y NVIDIA Isaac Sim.
Los pesos del modelo y el código están disponibles en GitHub y Hugging Face como código abierto.
La diferencia fundamental con modelos de mundo de video como Genie 3, Cosmos, etc., radica en que: los modelos de mundo de video generan videos a nivel de píxel, que desaparecen después de reproducirse y no se pueden editar; HY-World 2.0 genera activos 3D persistentes, que soportan caminar libremente, colisiones físicas y edición secundaria.
En el informe técnico, Tencent resume esta diferencia como “ver un video y que desaparezca” versus “construir un mundo que se conserva permanentemente”.
Se puede renderizar en tiempo real con GPU de consumo, y la inferencia solo requiere una pasada, a diferencia de los modelos de mundo de video que necesitan correr en cada cuadro.
Técnicamente, consta de cuatro etapas: primero, usar HY-Pano 2.0 para generar una panorámica de 360 grados a partir de la entrada; luego, usar WorldNav para planificar la trayectoria; después, usar WorldStereo 2.0 para expandir el mundo a lo largo de la trayectoria; y finalmente, usar WorldMirror 2.0 para reconstruir todos los fragmentos generados en un escenario 3D unificado.
En la solución de código abierto, HY-World 2.0 se denomina el primer modelo de mundo 3D que alcanza un nivel SOTA, con resultados comparables al producto comercial cerrado Marble.
Sin embargo, actualmente solo se ha abierto el código y los pesos de WorldMirror 2.0 (el módulo de reconstrucción 3D, aproximadamente 1.2 mil millones de parámetros), mientras que los módulos de generación panorámica, planificación de trayectorias y expansión del mundo están etiquetados como “próximamente disponibles”.
Para los desarrolladores de juegos, esto significa que pueden generar rápidamente prototipos de niveles y mapas con una sola línea, ahorrando mucho tiempo en modelado manual.
Para los investigadores en inteligencia embodied, reduce significativamente el costo de generar entornos de entrenamiento de simulación a partir de fotos en masa.
Tencent también ha lanzado una entrada de experiencia en línea, donde los usuarios pueden manipular personajes para explorar libremente las calles y edificios generados.
(Fuente: BlockBeats)

Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado