Sand.ai obtiene más de mil millones de dólares en financiación: mantiene la ruta de video autoregresivo, y planea lanzar en julio un gran modelo MoE de código abierto

Según la monitorización de Beating, la empresa de modelos grandes para generación de videos Sand.ai (establecida en enero de 2024) anunció la finalización de dos rondas de financiación por un total de más de mil millones de dólares. Los inversores incluyen Look Capital, Lollapalooza Capital (la oficina familiar de Wang Huiwen), Jiukun Venture Capital, Matrix Partners China, MSA Capital, Innovation Works, Source Code Capital, IDG, Baidu Venture Capital y varias instituciones de primer nivel. Esta ronda de financiación fue asesorada financieramente por Xinghan Capital.

El fundador de Sand.ai, Cao Yue, afirmó en una entrevista que el equipo ha mantenido una estrategia de generación de videos autoregresiva (Autoregressive) considerada no consensuada, en lugar de la ruta principal de difusión (Diffusion). Su modelo Magi-1, lanzado anteriormente, se mantuvo en primer lugar en la lista de pruebas de realidad física Physics-IQ de Google DeepMind.

Para superar la tríada imposible de «costo, velocidad y calidad» en la generación de videos, Sand.ai cambió el año pasado a explorar la arquitectura MoE (Expertos Híbridos) y planea lanzar en julio de 2026 (Q3) una nueva generación de modelos de generación de videos que utilicen esta arquitectura, equilibrando una inferencia eficiente con el mayor tamaño de parámetros en el campo de código abierto, además de hacer este modelo de código abierto.

En cuanto a la comercialización, Sand.ai adopta una estrategia de doble impulso con modelos y productos. Su producto de agente musical VidMuse, lanzado en enero de este año, alcanzó en solo 2 meses un ARR de 10 millones de dólares. Además, su biblioteca de operadores MagiAttention, de código abierto, ha sido utilizada por casi todos los equipos de modelos multimodales en China y ha sido recomendada oficialmente por NVIDIA.

Respecto al concepto de «modelo del mundo», muy discutido en la industria, Cao Yue opina que todavía está en la era anterior a GPT (antes de GPT-1), y que tanto los datos como la ruta aún no han convergido. Señala que el video es la modalidad de datos más importante para avanzar hacia modelos del mundo, y que estos deberían aprender de manera autónoma las leyes físicas prediciendo los datos de observación originales del video (Pixeles/Frames), en lugar de introducir conocimientos previos humanos para modelar explícitamente las variables de estado.

Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Fijado