D’après l’analyse la plus récente du blog de Nvidia, les GPU Blackwell coûtent près du double par heure par rapport à la génération Hopper, tout en affichant des coûts d’inférence par jeton 35 fois plus faibles. En utilisant DeepSeek-R1 comme modèle de test, Blackwell (GB300 NVL72) est loué à 2,65 dollars par GPU et par heure contre 1,41 pour Hopper, mais le débit par GPU passe de 90 à 6 000 tokens par seconde. Ce gain de débit de 65x réduit les coûts par million de tokens de 4,20 dollars à 0,12.
Le chiffre de 0,12 suppose une optimisation logicielle complète, incluant l’inférence en FP4 à faible précision et la prédiction multi-token (MTP). Sans activer MTP, les coûts par million de tokens atteignent environ 2,35 dollars, puis retombent à 0,11 avec elle activée, ce qui met en évidence un impact d’optimisation de 21x rien que grâce à cette fonctionnalité.
Related News
Alphabet dépasse les prévisions financières, GOOG grimpe de 6% et atteint un nouveau sommet
Le vice-président de Nvidia, chargé de l’apprentissage profond, estime que les dépenses en calcul pour l’IA dépasseront les coûts des salaires du personnel.
Les analystes des semi-conducteurs voient une tendance haussière de l’IA : « au moins encore trois ans » : le conditionnement avancé est le principal goulot d’étranglement de l’industrie