据 Beating 监测,DeepSeek 已正式在网页端和应用端推出 Vision 模式,提供深度场景分析、空间推理,并可将 UI 截图直接转换为 HTML 结构化代码。
新的视觉能力建立在 DeepSeek 的研究框架 “Thinking with Visual Primitives” 之上,该框架由来自北京大学和清华大学的研究人员共同研发。其底层方法通过将坐标点和边界框视为核心思考单元,来弥补现有视觉语言模型在空间推理方面的不足,使模型在推理过程中能够结合空间参照进行视觉推理。基础学术论文曾于 4 月 30 日短暂发布,但在 5 月 1 日被 DeepSeek 撤回。目前,Vision 模式仅支持图像输入,不支持视频或音频,也不具备图像生成功能。