La startup d’intelligence artificielle DeepInfra annonce avoir finalisé un financement de série B de 107 millions de dollars, mené par 500 Global et Georges Harik, ingénieur chez Google en début de carrière, avec la participation d’investisseurs stratégiques tels que NVIDIA, Samsung Next et Supermicro. D’après les informations officielles, cette nouvelle injection de fonds servira à étendre la capacité de centres de données à l’échelle mondiale, afin de résoudre les coûts de calcul et les goulots d’étranglement en matière d’efficacité auxquels sont confrontées les applications d’IA actuelles lorsqu’elles passent de l’« entraînement de modèles » au « raisonnement à grande échelle ».

La demande en inférence d’IA explose et devient un goulot d’étranglement majeur pour le déploiement en entreprise

Alors que l’intelligence artificielle se dirige vers la commercialisation, le centre de gravité des charges de travail des entreprises a connu un déplacement significatif. DeepInfra observe que, depuis le financement de série A, le volume de Token traité par sa plateforme a augmenté de 25 fois, indiquant que l’Inference (raisonnement) est désormais la force motrice principale des charges de travail d’IA des entreprises. À l’heure actuelle, les performances des modèles open source peuvent déjà rivaliser avec celles des systèmes propriétaires, réduisant considérablement les barrières à l’innovation. Toutefois, avec l’essor des applications d’agents autonomes (Agentic Systems), une seule tâche peut déclencher des centaines d’appels à des modèles. Comme les plateformes cloud généralistes traditionnelles ne sont pas conçues en fonction des besoins d’inférence, les entreprises font face à des défis tels que des coûts d’exploitation trop élevés et une latence difficile à contrôler, ce qui fait de l’inférence une contrainte systémique des charges de travail.

Optimiser l’efficacité de l’économie des tokens grâce à l’intégration verticale

DeepInfra adopte une stratégie d’intégration verticale et affirme que le raisonnement à haute performance doit être obtenu grâce à une conception coordonnée du matériel, du réseau et du logiciel. Le groupe dispose par le passé d’une expérience dans le développement et l’exploitation d’un système distribué imo ayant touché 200 millions d’utilisateurs à l’échelle mondiale. Aujourd’hui, il a déjà établi huit infrastructures GPU aux États-Unis. Par rapport aux services qui louent des capacités à des tiers, DeepInfra détient un contrôle complet de la pile, du niveau des puces jusqu’à l’interface API. Cette conception lui permet d’optimiser les tâches de génération de tokens « toujours en ligne », garantissant une latence plus prédictible que dans un environnement cloud généraliste lors de l’exécution de charges de travail d’IA intelligentes.

Deepinfra, un partenaire d’infrastructure de longue date pour l’écosystème ouvert d’IA de NVIDIA

Deepinfra est un partenaire d’infrastructure en collaboration précoce pour l’écosystème d’IA ouvert de NVIDIA, prenant en charge le modèle Nemotron, l’architecture d’agents NemoClaw et le logiciel d’inférence NVIDIA Dynamo. Le déploiement précoce des GPU Blackwell, ainsi que l’intégration à venir de Vera Rubin et Dynamo, devraient faire progresser l’efficacité coût-bénéfice de l’inférence jusqu’à 20 fois.

Deepinfra propose des modèles open source à fort pouvoir concurrentiel

En matière de contrôle des coûts, DeepInfra, grâce à un fonctionnement matériel optimisé, opère plus de 190 modèles open source, cherchant à offrir des prix particulièrement compétitifs sur le marché. Par exemple, pour le modèle d’inférence open source GLM-5, sa tarification hybride est de 1,24 dollar par million de tokens, soit environ 20 % en dessous de la valeur moyenne du secteur. Pour les « modèles de pensée » qui nécessitent de gros volumes de calcul de tokens en interne, la plateforme a développé un mécanisme de cache offrant des remises sur les textes statiques en cas d’entrées répétées, réduisant efficacement les coûts des pipelines de dialogue multi-tours et de génération renforcée par la récupération (RAG). Pour répondre aux exigences de sécurité côté entreprise, DeepInfra fournit une API compatible avec OpenAI et s’engage sur une conservation nulle des données. En outre, la société obtient les certifications SOC 2 et ISO 27001 afin de garantir que les développeurs puissent appliquer directement les modèles à des environnements de production.

L’importance d’une infrastructure dédiée à l’inférence pour l’étape suivante de l’intelligence artificielle

Le soutien du marché des investissements à DeepInfra reflète le fait que l’importance des infrastructures d’IA dépasse progressivement le modèle lui-même. Tony Wang, associé-gérant de 500 Global, souligne qu’en environnement de développement propulsé par des agents, ce dont les développeurs ont besoin, c’est d’une plateforme dédiée plus flexible, plus rapide et plus fiable. Après l’achèvement de ce tour de financement, le montant total levé par DeepInfra atteint 133 millions de dollars. Les fonds serviront à l’expansion des capacités de calcul à l’échelle mondiale, au renforcement des outils pour développeurs et au soutien des modèles d’agents autonomes de prochaine génération. À mesure que le nombre de tokens traités chaque semaine approche les 5 billions, DeepInfra vise à construire une « token factory » à haute efficacité, afin d’offrir une base de calcul durable aux entreprises lors de la phase de mise à l’échelle des applications d’IA.

Cet article « L’allié de longue date de NVIDIA dans l’IA ouverte Deepinfra lève 107 millions de dollars en série B pour construire une “token factory” » est apparu pour la première fois sur Chaîne Actualités ABMedia.

Avertissement : Les informations contenues dans cette page peuvent provenir de tiers et ne représentent pas les points de vue ou les opinions de Gate. Le contenu de cette page est fourni à titre de référence uniquement et ne constitue pas un conseil financier, d'investissement ou juridique. Gate ne garantit pas l'exactitude ou l'exhaustivité des informations et n'est pas responsable des pertes résultant de l'utilisation de ces informations. Les investissements en actifs virtuels comportent des risques élevés et sont soumis à une forte volatilité des prix. Vous pouvez perdre la totalité du capital investi. Veuillez comprendre pleinement les risques pertinents et prendre des décisions prudentes en fonction de votre propre situation financière et de votre tolérance au risque. Pour plus de détails, veuillez consulter l'avertissement.

Articles similaires

Tilde Research découvre que l’optimiseur Muon détruit 25% des neurones ; l’alternative Aurora atteint un gain d’efficacité des données de 100x

Actualités de l’industrie de l’IA

D'après Tilde Research, l’optimiseur Muon adopté par les principaux modèles d’IA, dont DeepSeek V4 et Kimi K2.5, présente une faille cachée : il fait mourir de façon permanente plus de 25% des neurones des couches MLP pendant l’entraînement initial. L’équipe a conçu Aurora, un optimiseur alternatif, et l’a open-source. Un modèle de 1,1 milliard de paramètres entraîné avec seulement 100 milliards de tokens a atteint les performances de Qwen3-1,7B entraîné sur 36 T tokens sur des bancs d’essai de

GateNewsIl y a 12m

Nvidia engage plus de 40 milliards de dollars dans des investissements liés à l’IA au début de 2026, dont 30 milliards de dollars pour OpenAI

Actualités de l’industrie de l’IA

Selon TechCrunch, Nvidia a engagé plus de 40 milliards de dollars en investissements en actions dans des entreprises d’IA au cours des premiers mois de 2026, avec un investissement de 30 milliards de dollars dans OpenAI comme plus grand engagement unique. Le fabricant de puces a également promis jusqu’à 3,2 milliards de dollars au verrier Corning et jusqu’à 2,1 milliards de dollars à l’opérateur de centres de données IREN, ce qui inclut un warrant sur cinq ans et un contrat distinct de 3,4 milli

GateNewsIl y a 3h

Membre du Conseil des gouverneurs de la BCE, Escrivá, signale les risques liés à l’IA pour l’infrastructure financière le 9 mai

Actualités de l’industrie de l’IA

Le membre du Conseil des gouverneurs de la BCE, Escrivá, a déclaré le 9 mai que les banques centrales doivent réévaluer la résilience des infrastructures financières et la robustesse en matière de cybersécurité à la lumière des avancées de l’intelligence artificielle. D’après ses propos lors d’un événement, les progrès récents de l’IA obligent à repenser la capacité des systèmes financiers à faire face aux risques émergents.

GateNewsIl y a 4h

SpaceX rebaptise xAI en SpaceXAI, dépose une marque de « orbital computing » à l’approche d’une introduction en bourse de 1,75T$

Actualités de l’industrie de l’IA

D’après des dépôts de marques auprès de l’United States Patent and Trademark Office, la société d’intelligence artificielle d’Elon Musk, xAI, est intégrée à SpaceX sous une nouvelle marque, SpaceXAI. Le changement de marque couvre des centres de données basés sur des satellites, l’informatique orbitale, le cloud computing et la gestion des charges de travail liées à l’IA via des plateformes spatiales. Musk a confirmé que xAI serait dissoute en tant qu’entreprise distincte, et que les produits d’

GateNewsIl y a 6h

L’écosystème de Space Computing de Nvidia sort, avec Space-1 Vera Rubin qui envoie la puissance de calcul IA de niveau centre de données dans l’espace

Actualités de l’industrie de l’IA

NVIDIA Space Computing fait ses débuts lors du GTC 2026. Récemment, NVIDIA a publié davantage d’informations officielles, tentant de transférer sa plateforme d’informatique accélérée des centres de données terrestres vers les orbites spatiales. Ce projet se concentre sur l’infrastructure d’IA nécessaire aux missions spatiales de nouvelle génération, permettant aux satellites, aux plateformes orbitales et aux stations au sol d’utiliser les GPU NVIDIA et des modules d’informatique de périphérie, a

ChainNewsAbmediaIl y a 11h

Chrome télécharge automatiquement le modèle d’IA Gemini Nano de plusieurs gigaoctets le 9 mai, suscitant des inquiétudes en matière de sécurité dans la communauté crypto

Incidents de sécurité Actualités de l’industrie de l’IA

D’après BlockBeats, le 9 mai, Chrome a automatiquement téléchargé un fichier de modèle d’IA multi-gigaoctets (Gemini Nano) sur les appareils des utilisateurs, sans consentement explicite, pour la détection locale de fraude, la synthèse de pages web et des fonctionnalités d’IA. Alors que Google a déclaré que l’exécution locale d’une IA renforce la confidentialité et la sécurité, les utilisateurs de crypto ont exprimé des inquiétudes concernant le manque de transparence et d’autorisation explicite

GateNewsIl y a 12h

Commentaire

0/400

Aucun commentaire