DeepSeek V4 Pro sur Ollama Cloud : connectez Claude Code en un clic

Selon le tweet officiel d’Ollama du 27 avril, le modèle phare DeepSeek V4 Pro, publié le 24 avril par la société chinoise d’IA DeepSeek, fait désormais son entrée officielle dans le répertoire d’Ollama en mode cloud ; les utilisateurs peuvent appeler ce modèle avec une seule ligne de commande, via des outils d’agents courants tels que Claude Code, Hermes Agent, OpenClaw, Codex, OpenCode, etc. C’est une synchronisation parmi les plus rapides d’Ollama pour intégrer des modèles de pointe — entre la publication des poids par DeepSeek et le lancement d’Ollama Cloud, il ne s’est écoulé que trois jours.

DeepSeek V4 Pro : 1,6 T de paramètres, 1 M de contexte

Le V4 Pro adopte une architecture Mixture-of-Experts, avec une taille totale de paramètres de 1,6 trillion (49 milliards de paramètres actifs), et une fenêtre de contexte de 1M token. Des benchmarks tiers, Artificial Analysis, indiquent que le V4 Pro, sur des références de programmation comme SWE-bench (80,6 %), LiveCodeBench (93,5 %) et Terminal-Bench (67,9 %), se classe en tête du peloton des modèles open source au même niveau que le modèle open source de Kimi K2.6, avec un Intelligence Index global inférieur d’un “cran” à celui de Kimi K2.6.

En parallèle, DeepSeek a également publié un modèle plus léger, V4 Flash ; les deux adoptent une licence MIT, avec un code open source, et les poids peuvent être téléchargés depuis Hugging Face.

Inférence dans le cloud Ollama : les poids ne sont pas téléchargés en local

deepseek-v4-pro:cloud est un modèle Ollama Cloud — l’inférence s’effectue sur le cloud d’Ollama, et les poids ne sont pas téléchargés sur la machine de l’utilisateur. C’est la méthode standard d’Ollama pour gérer les modèles ultra-larges : auparavant, Kimi K2.6 a aussi été intégré de la même manière. Pour les utilisateurs, l’avantage majeur est de ne pas avoir besoin de plusieurs dizaines de GPU pour appeler un modèle de niveau phare ; en contrepartie, il faut toujours une connexion réseau et l’allocation des ressources de calcul dépend de la charge du cloud d’Ollama.

Pour exécuter entièrement en local, il faut obtenir les poids deepseek-ai/DeepSeek-V4-Pro depuis Hugging Face, et utiliser une version quantifiée INT4 (comme les GGUF publiés par Unsloth) ainsi qu’une configuration multi-cartes GPU, pour que cela soit viable. En général, le matériel grand public ne suffit pas à faire tourner le modèle complet.

Une ligne de commande pour enchaîner Claude Code, Hermes Agent, OpenClaw

Ollama publie en même temps des instructions de lancement (launcher) pour l’intégration avec les outils d’agents grand public :

直接對話 ollama run deepseek-v4-pro:cloud # enchaînement avec Claude Code ollama launch claude --model deepseek-v4-pro:cloud # 串接 Hermes Agent ollama launch hermes --model deepseek-v4-pro:cloud # enchaînement avec OpenClaw / OpenCode / Codex ollama launch openclaw --model deepseek-v4-pro:cloud ollama launch opencode --model deepseek-v4-pro:cloud ollama launch codex --model deepseek-v4-pro:cloud

L’objectif est le suivant : auparavant, pour remplacer un modèle par DeepSeek dans Claude Code, les développeurs devaient passer par une API compatible OpenAI afin d’effectuer eux-mêmes l’enchaînement, de gérer les endpoints et l’authentification ; maintenant, il suffit d’une ligne de commande via Ollama pour le faire. Pour les utilisateurs qui exploitent intensivement Claude Code, cela fournit un chemin rapide pour remplacer un modèle Anthropic par DeepSeek (ou, de façon analogue, Kimi) afin de réduire les coûts.

Retours des testeurs précoces : de 30 tok/s jusqu’à un pic à 1,1 tok/s

Les discussions de la communauté sous le tweet indiquent que la vitesse de l’inférence cloud varie selon la charge du cloud d’Ollama. Plusieurs testeurs précoces rapportent que pendant les heures de pointe la vitesse est plus lente : elle passerait de la cadence habituelle de 30 tokens/s à un niveau d’environ 1,1 tokens/s. L’utilisateur @benvargas a directement publié une capture d’écran en se plaignant de « Need More Compute ». Dans une autre réponse, Ollama reconnaît que l’équipe officielle « joue aussi avec ce modèle », ce qui suggère que le trafic est encore en phase d’exploration et qu’une planification complète des capacités n’a pas encore été réalisée.

Pour les développeurs qui recherchent une vitesse stable en production, la recommandation actuelle est la suivante : utiliser le mode cloud comme phase de test de prototype et d’évaluation des coûts, tandis que pour un produit officiel il faudra soit construire une infrastructure d’inférence avec GPU en interne, soit choisir une API commerciale. Le tutoriel complet d’Ollama a été mis à jour pour inclure la section V4 Pro et des explications sur les compromis entre cloud et local.

Cet article DeepSeek V4 Pro sur Ollama Cloud : Claude Code enchaîné en un clic est apparu le plus tôt sur Chaîne d’actualité ABMedia.

Avertissement : Les informations contenues dans cette page peuvent provenir de tiers et ne représentent pas les points de vue ou les opinions de Gate. Le contenu de cette page est fourni à titre de référence uniquement et ne constitue pas un conseil financier, d'investissement ou juridique. Gate ne garantit pas l'exactitude ou l'exhaustivité des informations et n'est pas responsable des pertes résultant de l'utilisation de ces informations. Les investissements en actifs virtuels comportent des risques élevés et sont soumis à une forte volatilité des prix. Vous pouvez perdre la totalité du capital investi. Veuillez comprendre pleinement les risques pertinents et prendre des décisions prudentes en fonction de votre propre situation financière et de votre tolérance au risque. Pour plus de détails, veuillez consulter l'avertissement.
Commentaire
0/400
Aucun commentaire