D’après le suivi Beating, DeepSeek a officiellement lancé le mode Vision sur les plateformes web et appli, avec une analyse approfondie des scènes, un raisonnement spatial et la capacité de convertir directement des captures d’écran d’interface utilisateur en code structuré en HTML.
La nouvelle capacité de vision s’appuie sur le cadre de recherche de DeepSeek, « Thinking with Visual Primitives », co-développé avec des chercheurs de l’université de Pékin et de l’université Tsinghua. L’approche sous-jacente répond aux lacunes de raisonnement spatial des modèles de langage visuels existants en traitant les points de coordonnées et les boîtes englobantes comme unités de pensée essentielles, permettant au modèle d’effectuer un raisonnement visuel avec une référence spatiale intégrée pendant l’inférence. L’article scientifique fondamental a été brièvement publié le 30 avril, mais a été retiré par DeepSeek le 1er mai. Le mode Vision prend actuellement uniquement en charge l’entrée d’images, sans support vidéo ni audio, et ne dispose pas de capacités de génération d’images.