Beatingのモニタリングによると、DeepSeekはWebおよびアプリの両方のプラットフォームでVisionモードを公式にローンチし、ディープなシーン分析、空間推論、そしてUIのスクリーンショットを直接HTML構造化コードへ変換できる機能を備えています。
新しいビジョン機能は、北京大学および清華大学の研究者と共同で開発されたDeepSeekの研究フレームワーク「Thinking with Visual Primitives」に基づいて構築されています。基盤となるアプローチは、座標点やバウンディングボックスを中核の思考ユニットとして扱うことで、既存の視覚言語モデルにおける空間推論の不足に対処し、推論中に空間的な参照を統合した状態でモデルが視覚推論を行えるようにします。基礎となる学術論文は4月30日に短期間公開されましたが、5月1日にDeepSeekによって撤回されました。Visionモードは現在、画像入力のみをサポートしており、動画や音声は対応しておらず、画像生成機能も備えていません。