La startup d’intelligence artificielle DeepInfra annonce avoir finalisé un financement de série B de 107 millions de dollars, mené par 500 Global et Georges Harik, ingénieur chez Google en début de carrière, avec la participation d’investisseurs stratégiques tels que NVIDIA, Samsung Next et Supermicro. D’après les informations officielles, cette nouvelle injection de fonds servira à étendre la capacité de centres de données à l’échelle mondiale, afin de résoudre les coûts de calcul et les goulots d’étranglement en matière d’efficacité auxquels sont confrontées les applications d’IA actuelles lorsqu’elles passent de l’« entraînement de modèles » au « raisonnement à grande échelle ».
La demande en inférence d’IA explose et devient un goulot d’étranglement majeur pour le déploiement en entreprise
Alors que l’intelligence artificielle se dirige vers la commercialisation, le centre de gravité des charges de travail des entreprises a connu un déplacement significatif. DeepInfra observe que, depuis le financement de série A, le volume de Token traité par sa plateforme a augmenté de 25 fois, indiquant que l’Inference (raisonnement) est désormais la force motrice principale des charges de travail d’IA des entreprises. À l’heure actuelle, les performances des modèles open source peuvent déjà rivaliser avec celles des systèmes propriétaires, réduisant considérablement les barrières à l’innovation. Toutefois, avec l’essor des applications d’agents autonomes (Agentic Systems), une seule tâche peut déclencher des centaines d’appels à des modèles. Comme les plateformes cloud généralistes traditionnelles ne sont pas conçues en fonction des besoins d’inférence, les entreprises font face à des défis tels que des coûts d’exploitation trop élevés et une latence difficile à contrôler, ce qui fait de l’inférence une contrainte systémique des charges de travail.
Optimiser l’efficacité de l’économie des tokens grâce à l’intégration verticale
DeepInfra adopte une stratégie d’intégration verticale et affirme que le raisonnement à haute performance doit être obtenu grâce à une conception coordonnée du matériel, du réseau et du logiciel. Le groupe dispose par le passé d’une expérience dans le développement et l’exploitation d’un système distribué imo ayant touché 200 millions d’utilisateurs à l’échelle mondiale. Aujourd’hui, il a déjà établi huit infrastructures GPU aux États-Unis. Par rapport aux services qui louent des capacités à des tiers, DeepInfra détient un contrôle complet de la pile, du niveau des puces jusqu’à l’interface API. Cette conception lui permet d’optimiser les tâches de génération de tokens « toujours en ligne », garantissant une latence plus prédictible que dans un environnement cloud généraliste lors de l’exécution de charges de travail d’IA intelligentes.
Deepinfra, un partenaire d’infrastructure de longue date pour l’écosystème ouvert d’IA de NVIDIA
Deepinfra est un partenaire d’infrastructure en collaboration précoce pour l’écosystème d’IA ouvert de NVIDIA, prenant en charge le modèle Nemotron, l’architecture d’agents NemoClaw et le logiciel d’inférence NVIDIA Dynamo. Le déploiement précoce des GPU Blackwell, ainsi que l’intégration à venir de Vera Rubin et Dynamo, devraient faire progresser l’efficacité coût-bénéfice de l’inférence jusqu’à 20 fois.
Deepinfra propose des modèles open source à fort pouvoir concurrentiel
En matière de contrôle des coûts, DeepInfra, grâce à un fonctionnement matériel optimisé, opère plus de 190 modèles open source, cherchant à offrir des prix particulièrement compétitifs sur le marché. Par exemple, pour le modèle d’inférence open source GLM-5, sa tarification hybride est de 1,24 dollar par million de tokens, soit environ 20 % en dessous de la valeur moyenne du secteur. Pour les « modèles de pensée » qui nécessitent de gros volumes de calcul de tokens en interne, la plateforme a développé un mécanisme de cache offrant des remises sur les textes statiques en cas d’entrées répétées, réduisant efficacement les coûts des pipelines de dialogue multi-tours et de génération renforcée par la récupération (RAG). Pour répondre aux exigences de sécurité côté entreprise, DeepInfra fournit une API compatible avec OpenAI et s’engage sur une conservation nulle des données. En outre, la société obtient les certifications SOC 2 et ISO 27001 afin de garantir que les développeurs puissent appliquer directement les modèles à des environnements de production.
L’importance d’une infrastructure dédiée à l’inférence pour l’étape suivante de l’intelligence artificielle
Le soutien du marché des investissements à DeepInfra reflète le fait que l’importance des infrastructures d’IA dépasse progressivement le modèle lui-même. Tony Wang, associé-gérant de 500 Global, souligne qu’en environnement de développement propulsé par des agents, ce dont les développeurs ont besoin, c’est d’une plateforme dédiée plus flexible, plus rapide et plus fiable. Après l’achèvement de ce tour de financement, le montant total levé par DeepInfra atteint 133 millions de dollars. Les fonds serviront à l’expansion des capacités de calcul à l’échelle mondiale, au renforcement des outils pour développeurs et au soutien des modèles d’agents autonomes de prochaine génération. À mesure que le nombre de tokens traités chaque semaine approche les 5 billions, DeepInfra vise à construire une « token factory » à haute efficacité, afin d’offrir une base de calcul durable aux entreprises lors de la phase de mise à l’échelle des applications d’IA.
Cet article « L’allié de longue date de NVIDIA dans l’IA ouverte Deepinfra lève 107 millions de dollars en série B pour construire une “token factory” » est apparu pour la première fois sur Chaîne Actualités ABMedia.
Articles similaires
Tilde Research découvre que l’optimiseur Muon détruit 25% des neurones ; l’alternative Aurora atteint un gain d’efficacité des données de 100x
Nvidia engage plus de 40 milliards de dollars dans des investissements liés à l’IA au début de 2026, dont 30 milliards de dollars pour OpenAI
Membre du Conseil des gouverneurs de la BCE, Escrivá, signale les risques liés à l’IA pour l’infrastructure financière le 9 mai
SpaceX rebaptise xAI en SpaceXAI, dépose une marque de « orbital computing » à l’approche d’une introduction en bourse de 1,75T$
L’écosystème de Space Computing de Nvidia sort, avec Space-1 Vera Rubin qui envoie la puissance de calcul IA de niveau centre de données dans l’espace
Chrome télécharge automatiquement le modèle d’IA Gemini Nano de plusieurs gigaoctets le 9 mai, suscitant des inquiétudes en matière de sécurité dans la communauté crypto