La startup de IA DeepInfra anunció la finalización de una ronda B de 107 millones de dólares, liderada por 500 Global y por Georges Harik, un ingeniero de Google en etapa temprana, con la participación de inversores estratégicos como NVIDIA (NVIDIA), Samsung Next y Supermicro. Según el comunicado oficial, la inyección se utilizará para ampliar la capacidad de centros de datos globales, para abordar los costos computacionales y los cuellos de botella de eficiencia a los que se enfrenta la IA cuando las aplicaciones pasan de “entrenamiento de modelos” a “inferencia a gran escala”.

La creciente demanda de inferencia se convierte en un cuello de botella clave para que las empresas desplieguen IA

A medida que la IA avanza hacia la comercialización, el enfoque de las cargas de trabajo empresariales se ha desplazado de forma notable. DeepInfra observó que desde la ronda A, el volumen de Tokens que procesa su plataforma ha crecido 25 veces, lo que indica que la Inference (inferencia) se ha convertido en el motor principal de las cargas de trabajo de IA de las empresas. En la actualidad, el rendimiento de los modelos open source ya puede competir con los sistemas propietarios, reduciendo drásticamente la barrera para innovar. Sin embargo, las aplicaciones de agentes inteligentes (Agentic Systems) que llegan después pueden requerir que una sola tarea active cientos de ejecuciones de modelos. Como las plataformas cloud tradicionales de propósito general no están diseñadas según las necesidades de inferencia, las empresas enfrentan desafíos como costos operativos demasiado altos y latencia incontrolable, haciendo que la inferencia se vuelva una restricción de sistema en las cargas de trabajo.

Integración vertical de la pila y optimización de la economía de tokens

DeepInfra adopta una estrategia de integración vertical y sostiene que una inferencia de alto rendimiento debe lograrse mediante un diseño coordinado de hardware, red y software. El equipo tiene experiencia previa desarrollando aplicaciones de comunicación imo con la operación de un sistema distribuido para 200 millones de usuarios, y actualmente ya ha establecido ocho infraestructuras de GPU en Estados Unidos. En comparación con los proveedores que alquilan capacidad de terceros, DeepInfra tiene control total de la pila completa, desde el nivel de chips hasta la interfaz de API. Este diseño le permite optimizar tareas de generación de tokens “siempre en línea”, garantizando una latencia más predecible al ejecutar cargas de trabajo de IA inteligente que en entornos cloud de uso general.

Deepinfra, socio de infraestructura de IA abierta de largo plazo de NVIDIA

Deepinfra es un socio de infraestructura de base en etapas tempranas para el ecosistema de IA abierta de NVIDIA, con soporte para el modelo Nemotron, la arquitectura de agente NemoClaw y el software de inferencia NVIDIA Dynamo. El despliegue temprano de las GPU Blackwell y la integración que está por lanzarse con Vera Rubin y Dynamo permitirán aumentar la eficiencia en costos de la inferencia hasta 20 veces.

Deepinfra ofrece modelos open source con competitividad

En control de costos, DeepInfra opera mediante hardware optimizado más de 190 modelos open source, con el objetivo de ofrecer precios altamente competitivos en el mercado. Por ejemplo, el modelo de inferencia open source GLM-5 tiene un precio híbrido de 1,24 dólares por cada millón de tokens, por debajo del valor promedio de la industria en aproximadamente 20 %. Para “modelos de pensamiento” que requieren gran cantidad de cálculos internos de tokens, la plataforma desarrolló un mecanismo de caché que aplica precios con descuento a textos estáticos con entradas repetidas, reduciendo de manera efectiva los costos de conversaciones de múltiples turnos y de los flujos de generación con enriquecimiento de recuperación (RAG). Para cumplir con los requisitos de seguridad del lado empresarial, DeepInfra ofrece una API compatible con OpenAI y promete cero retención de datos, además de contar con certificaciones SOC 2 e ISO 27001, asegurando que los desarrolladores puedan aplicar los modelos directamente en entornos de producción reales.

La importancia de la infraestructura dedicada de inferencia para la siguiente etapa de la IA

El respaldo del mercado de inversión a DeepInfra refleja que la importancia de la infraestructura de IA está superando gradualmente a los propios modelos. Tony Wang, socio gerente de 500 Global, señaló que en un entorno de desarrollo impulsado por agentes, lo que los desarrolladores necesitan es una plataforma dedicada más flexible, rápida y confiable. Tras completar esta ronda, el monto total de financiamiento de DeepInfra alcanza los 133 millones de dólares; los fondos se utilizarán para la expansión de la capacidad de cómputo global, la profundización de herramientas para desarrolladores y para apoyar modelos de agentes inteligentes de la próxima generación. Con cada semana procesando casi 5 billones de tokens, DeepInfra apunta a construir una “fábrica de tokens” de alta eficiencia, para proporcionar una base de cómputo sostenible para que las empresas apliquen IA a escala.

Este artículo “NVIDIA: su socio a largo plazo en IA abierta, Deepinfra, consigue 107 millones de dólares en una ronda B para crear una ‘fábrica de tokens’” aparece primero en la cadena de noticias ABMedia.

Aviso legal: La información de esta página puede proceder de terceros y no representa los puntos de vista ni las opiniones de Gate. El contenido que aparece en esta página es solo para fines informativos y no constituye ningún tipo de asesoramiento financiero, de inversión o legal. Gate no garantiza la exactitud ni la integridad de la información y no se hace responsable de ninguna pérdida derivada del uso de esta información. Las inversiones en activos virtuales conllevan riesgos elevados y están sujetas a una volatilidad significativa de los precios. Podrías perder todo el capital invertido. Asegúrate de entender completamente los riesgos asociados y toma decisiones prudentes de acuerdo con tu situación financiera y tu tolerancia al riesgo. Para obtener más información, consulta el Aviso legal.

Artículos relacionados

Las IPO de Cerebras esta semana a una valoración de 55 mil millones de dólares, lo que le daría a OpenAI una participación potencial del 11%

Noticias de la industria de la IA Acciones

Según Odaily, el fabricante de chips de inteligencia artificial Cerebras saldrá a bolsa esta semana con una valoración de IPO de 55 mil millones de dólares. El compromiso de inversión de 200 mil millones de dólares de OpenAI podría darle una participación del 11% en la empresa.

GateNewsHace32m

Cerebras sale a bolsa esta semana con una valoración de 5,5B; la participación del 11% de OpenAI podría generar más de 5B

Noticias de la industria de la IA Acciones

Según The Information, el fabricante de chips de IA Cerebras saldrá a bolsa esta semana con una valoración de IPO de 5,5 mil millones de dólares. El compromiso de inversión de OpenAI de 20 mil millones de dólares podría darle una participación del 11% en la empresa, potencialmente generando más de 5 mil millones de dólares en ingresos.

GateNewsHace32m

SAP invierte en n8n, duplicando la valoración de la plataforma de automatización de flujos de trabajo a 5,2 mil millones de dólares

Noticias de la industria de la IA Agente de IA

Según Bloomberg, SAP invirtió en n8n el martes, duplicando la valoración de la plataforma de automatización de flujos de trabajo hasta 5,2 mil millones de dólares. El gigante alemán del software también firmó un acuerdo de asociación plurianual con n8n para integrar las herramientas de la plataforma en el motor de construcción de agentes de IA de SAP, Joule Studio, según el comunicado de SAP.

GateNewsHace50m

La startup de IA White Circle completa una ronda semilla de $11M con ejecutivos de OpenAI y Anthropic

Noticias de la industria de la IA

Según Odaily, la startup de IA White Circle recientemente completó una ronda de financiación semilla de 11 millones de dólares, con la participación, entre otros, del ejecutivo de OpenAI Romain Huet y del investigador de Anthropic Durk Kingma. La empresa ofrece una API unificada para el monitoreo en tiempo real de las entradas y salidas de los modelos de lenguaje, diseñada para detectar alucinaciones, ataques de inyección de prompts, contenido dañino, desvío del modelo y comportamiento malicioso

GateNewshace1h

Artificial Analysis publica un benchmark para agentes de codificación; Zhipu GLM-5.1 ocupa el primer lugar entre los modelos de código abierto

Agente de IA Noticias de la industria de la IA

Artificial Analysis lanzó hoy un nuevo Coding Agent Index para evaluar cómo se desempeñan los modelos de IA cuando se combinan con marcos de agentes en puntos de referencia clave, incluidos SWE-Bench-Pro-Hard-AA, Terminal-Bench v2 y SWE-Atlas-QnA. Zhipu GLM-5.1 ocupó el primer lugar entre los modelos de código abierto en la evaluación, demostrando un rendimiento líder en escenarios reales de agentes de programación.

GateNewshace1h

Yuntianliyifei presenta una arquitectura de memoria apilada en 3D en el desarrollo de chips de inferencia

Noticias de la industria de la IA

De acuerdo con las divulgaciones de relaciones con inversores del 12 de mayo, el chip de inferencia en desarrollo de Yuntianliyifei adopta una arquitectura GPNPU como hoja de ruta tecnológica principal. Los puntos técnicos clave incluyen una capacidad de programación universal a nivel GPGPU compatible con los ecosistemas CUDA más habituales, núcleos NPU optimizados para la eficiencia en inferencia y una arquitectura de memoria apilada en 3D diseñada para aumentar el ancho de banda y reducir la l

GateNewshace1h

Comentar

0/400

Sin comentarios