DeepSeek跨入图文交互时代识图模式开启新体验【两砚网】

上个月底，DeepSeek 开始灰度测试“识图模式”。这种模式不仅限于文字 OCR，还具备了图片识别理解能力。最新用户反馈显示，DeepSeek 已经大范围开放“识图模式”供用户体验，几乎所有测试账号都能看到该入口。

拥有灰度测试资格的用户会发现，在输入框上方与“快速模式”和“专家模式”并列，出现了一个全新的“识图模式”按钮。开启该模式后，用户可以直接上传图片让 DeepSeek 进行图像识别。其能力远超简单的文字提取，例如在基础的图像识别领域，它能详细描述纹理与材质，甚至准确推断出某件玉器属于 18 世纪清代乾隆时期的“痕都斯坦风格”。面对烧脑的逻辑题时，它展现出硬核的推理能力，能够解决高难度空间推理题。此外，它还能精准识别流行的表情包或梗图，甚至解读出小猫的情绪，理解网民的转发笑点。在生产力方面，它还可以充当万能的“截图转码器”，直接解析包含代码、复杂 UI 界面的技术报告或网页截图，提取所有文字，甚至生成可交互的 HTML 代码，复原原网页的跳转按钮。

伴随着识图模式的上线，DeepSeek 上月底还公开了其背后的多模态模型技术细节，公布了一种名为“Thinking with Visual Primitives”的核心框架。传统多模态大模型在面对密集场景时存在“指代鸿沟”的困境，模型虽然能看到图片，但在推理过程中用模糊的自然语言构建逻辑链时容易导致注意力漂移。DeepSeek 的解法是将点、边界框等代表空间位置的视觉元素直接融入模型的推理链条，使其成为“思维的基本单元”。这种创新框架使得模型在推理时就像人类用“赛博手指”在脑海中精确指出目标物一样，边想边指，从而解决了复杂空间布局中的逻辑难题。

更令人惊叹的是，这种高效的框架在实际运算中对算力资源非常友好。处理一张 800×800 分辨率的图片时，DeepSeek 仅消耗约 90 个 tokens，而 GPT 和 Claude 等其他主流模型则需要消耗约 870 到 1100 个 tokens。DeepSeek 在多项计数与空间推理的基准测试上达到了比肩甚至超越前沿模型的水平。