DeepSeek, una empresa de inteligencia artificial con sede en Hangzhou, ha añadido capacidades de reconocimiento de imágenes y video a su chatbot principal mediante una nueva función de “modo de reconocimiento de imágenes”, poniéndolo a la par con otros grandes chatbots de IA. El lanzamiento coincidió con un hito importante en la cadena de suministro de chips de China: cuatro empresas nacionales de semiconductores—Huawei Ascend, Cambricon, Hygon Information y Moore Threads—confirmaron el mismo día el soporte para el modelo insignia más reciente de DeepSeek, DeepSeek-V4, marcando un cambio frente a los anteriores periodos de adaptación que solían durar varios meses fuera del ecosistema de Nvidia.

Visión de DeepSeek y expansión de modelos

DeepSeek puso en marcha en silencio el modo de reconocimiento de imágenes junto con otros dos modos lanzados anteriormente ese mes: “expert” y “flash”. Según Chen Xiaokang, que dirige el equipo multimodal de DeepSeek, la herramienta se probó primero con un grupo pequeño de usuarios tanto en el sitio web como en la aplicación móvil. Chen Deli, un investigador senior de la empresa, celebró el lanzamiento con una publicación que hacía referencia al logotipo de la compañía: “La pequeña ballena ahora puede ver”.

La función de imágenes y video llegó apenas unos días después de que DeepSeek publicara una vista previa de DeepSeek-V4 y pusiera a disposición los pesos del modelo para descarga y uso públicos. V4 se estructura como dos modelos distintos: DeepSeek-V4-Pro, con 1.6 billones de parámetros, diseñado para razonamiento complejo y flujos de trabajo automatizados de múltiples pasos, y DeepSeek-V4-Flash, optimizado para gestionar grandes volúmenes de solicitudes con menor costo. Ambos modelos admiten una ventana de contexto de un millón de tokens y emplean un diseño de atención híbrida que la empresa afirma reduce los requisitos de potencia de cómputo y memoria durante la inferencia.

Fabricantes chinos de chips logran soporte de lanzamiento el mismo día

Lo que captó la atención de la industria no fue solo el propio modelo, sino el soporte de hardware coordinado demostrado el día del lanzamiento de V4. Huawei Ascend confirmó la compatibilidad con sus chips A2, A3 y 950, con el Ascend 950 usando procesos de cómputo fusionados y flujos de procesamiento en paralelo para acelerar la inferencia tanto para V4-Pro como para V4-Flash. Cambricon completó su adaptación utilizando el marco de inferencia vLLM de código abierto y publicó su código en GitHub. Hygon Information realizó una optimización profunda del modelo en su plataforma DCU para permitir una transición fluida desde el lanzamiento del modelo hasta el despliegue. Moore Threads se asoció con la Beijing Academy of Artificial Intelligence para ejecutar V4 en su tarjeta MTT S5000 mediante el stack de software FlagOS.

Este soporte el mismo día en múltiples conjuntos de chips representa una salida de los patrones históricos. Antes, el hardware fuera del ecosistema de Nvidia normalmente necesitaba meses para admitir modelos importantes nuevos. Los observadores de la industria señalan que lograr compatibilidad en el día de lanzamiento entre cuatro conjuntos de chips nacionales distintos indica un cambio real en la madurez de la infraestructura de semiconductores y de IA de China.

Implicaciones estratégicas: costos e independencia de la cadena de suministro

La importancia más amplia del lanzamiento de DeepSeek va más allá de los logros técnicos individuales. Al permitir que V4 se ejecute de forma nativa en múltiples chips chinos simultáneamente, DeepSeek reduce el riesgo de dependencia frente a restricciones de exportación que históricamente han bloqueado a las empresas chinas para acceder a los procesadores estadounidenses más avanzados. La eficiencia de costos sigue siendo central en la estrategia de DeepSeek: la empresa se ha enfocado en mantener bajos los costos de operación del modelo, permitiendo a las empresas construir sistemas automatizados sin gastos de cómputo prohibitivos.

Los observadores de la industria describen este lanzamiento como un reflejo de que toda una cadena de suministro se está madurando, más que de un único avance tecnológico. La coordinación entre DeepSeek, los fabricantes de chips y los marcos de software demuestra el desarrollo integrado de un ecosistema. Esta trayectoria sugiere que el panorama competitivo en la IA está cambiando: pasa de centrarse en la sofisticación de modelos individuales a la capacidad de mantener sistemas completos, rentables e independientes a largo plazo.

FAQ

¿Qué nuevas capacidades agregó DeepSeek a su chatbot?
DeepSeek agregó un “modo de reconocimiento de imágenes” que permite que su chatbot entienda fotos y videos, no solo texto. Esta función se probó por primera vez con un grupo pequeño de usuarios tanto en el sitio web como en la aplicación móvil, alineando las capacidades de DeepSeek con otros grandes chatbots de IA que ofrecen habilidades similares.

¿Qué empresas de chips chinas respaldaron DeepSeek-V4 el día del lanzamiento?
Cuatro empresas de chips chinas confirmaron el soporte el mismo día para DeepSeek-V4: Huawei Ascend (con chips A2, A3 y 950), Cambricon, Hygon Information y Moore Threads. Esta compatibilidad en el mismo día en múltiples conjuntos de chips antes era poco común fuera del ecosistema de Nvidia y, normalmente, requería meses de trabajo de adaptación.

¿Cuáles son las dos versiones de DeepSeek-V4 y en qué se diferencian?
DeepSeek-V4-Pro cuenta con 1.6 billones de parámetros y está diseñado para razonamiento complejo y flujos de trabajo automatizados de múltiples pasos, mientras que DeepSeek-V4-Flash está optimizado para manejar grandes volúmenes de solicitudes con menor costo. Ambos admiten una ventana de contexto de un millón de tokens y usan un diseño de atención híbrida para reducir los requisitos de potencia de cómputo y memoria.

Ver fuente

Aviso legal: La información de esta página puede proceder de terceros y no representa los puntos de vista ni las opiniones de Gate. El contenido que aparece en esta página es solo para fines informativos y no constituye ningún tipo de asesoramiento financiero, de inversión o legal. Gate no garantiza la exactitud ni la integridad de la información y no se hace responsable de ninguna pérdida derivada del uso de esta información. Las inversiones en activos virtuales conllevan riesgos elevados y están sujetas a una volatilidad significativa de los precios. Podrías perder todo el capital invertido. Asegúrate de entender completamente los riesgos asociados y toma decisiones prudentes de acuerdo con tu situación financiera y tu tolerancia al riesgo. Para obtener más información, consulta el Aviso legal.

Comentar

0/400

RugProofRita

· hace1h

Acabo de probar la función de reconocimiento de imágenes, la comprensión del chino es realmente mejor que la de alguna otra compañía.

Ver originalesResponder0

ybaser

· hace2h

Aguanta firme HODL💎 Aguanta firme HODL💎

Ver originalesResponder0

GateUser-0b71fc11

· hace2h

De texto plano a multimodalidad, en medio año recorres lo que otros hacen en dos años

Ver originalesResponder0

MirrorBallGazingAtTheSky

· hace3h

No solo alardear, ¿se ha resuelto el problema de las alucinaciones en RAG?

Ver originalesResponder0

GateUser-ced0257a

· hace3h

¿Reconocimiento de video? Solicito evaluar la estabilidad en escenarios complejos

Ver originalesResponder0

GateUser-8f9ccfec

· hace3h

Esta fecha de publicación es perfecta, justo para aprovechar la tendencia de los chips.

Ver originalesResponder0

GateUser-cb789e81

· hace3h

Reducir los costos es la verdadera habilidad, esperar el precio de la API

Ver originalesResponder0

GasFeeAnxiety

· hace3h

¿¡Cuándo estará abierto para los usuarios gratuitos!?

Ver originalesResponder0

GateUser-f78f1f3e

· hace3h

Hitos en chips + actualización de funciones, ¿doble celebración?

Ver originalesResponder0

GateUser-06596f3b

· hace3h

La pista multimodal actualmente no tiene esta función, lo siento, no puedo salir.

Ver originalesResponder0