分享好友 资讯首页 资讯分类 切换频道

DeepSeek跨入图文交互时代 识图模式开启新体验

2026-05-11 13:08420两砚网东方财富网

上个月底,DeepSeek 开始灰度测试“识图模式”。这种模式不仅限于文字 OCR,还具备了图片识别理解能力。最新用户反馈显示,DeepSeek 已经大范围开放“识图模式”供用户体验,几乎所有测试账号都能看到该入口。

拥有灰度测试资格的用户会发现,在输入框上方与“快速模式”和“专家模式”并列,出现了一个全新的“识图模式”按钮。开启该模式后,用户可以直接上传图片让 DeepSeek 进行图像识别。其能力远超简单的文字提取,例如在基础的图像识别领域,它能详细描述纹理与材质,甚至准确推断出某件玉器属于 18 世纪清代乾隆时期的“痕都斯坦风格”。面对烧脑的逻辑题时,它展现出硬核的推理能力,能够解决高难度空间推理题。此外,它还能精准识别流行的表情包或梗图,甚至解读出小猫的情绪,理解网民的转发笑点。在生产力方面,它还可以充当万能的“截图转码器”,直接解析包含代码、复杂 UI 界面的技术报告或网页截图,提取所有文字,甚至生成可交互的 HTML 代码,复原原网页的跳转按钮。

伴随着识图模式的上线,DeepSeek 上月底还公开了其背后的多模态模型技术细节,公布了一种名为“Thinking with Visual Primitives”的核心框架。传统多模态大模型在面对密集场景时存在“指代鸿沟”的困境,模型虽然能看到图片,但在推理过程中用模糊的自然语言构建逻辑链时容易导致注意力漂移。DeepSeek 的解法是将点、边界框等代表空间位置的视觉元素直接融入模型的推理链条,使其成为“思维的基本单元”。这种创新框架使得模型在推理时就像人类用“赛博手指”在脑海中精确指出目标物一样,边想边指,从而解决了复杂空间布局中的逻辑难题。

更令人惊叹的是,这种高效的框架在实际运算中对算力资源非常友好。处理一张 800×800 分辨率的图片时,DeepSeek 仅消耗约 90 个 tokens,而 GPT 和 Claude 等其他主流模型则需要消耗约 870 到 1100 个 tokens。DeepSeek 在多项计数与空间推理的基准测试上达到了比肩甚至超越前沿模型的水平。

收藏 0
打赏 0
产业升级活力尽显 工业发展底气十足 新动能加速成长
国家统计局最新数据显示,2026年1至4月,全国规模以上工业增加值同比增长5.6%,保持平稳较快增长。从4月份单月看,规模以上工业增加值同比增长4.1%,工业生产稳中向好

0评论2026-05-2411

伊朗:伊美正在最终敲定谅解备忘录 观点趋向一致
伊朗外交部发言人巴加埃23日表示,经过数周的对话,“伊美双方的观点正朝着更加一致的方向发展”,双方目前正处于一份谅解备忘录的最终敲定阶段

0评论2026-05-2411

山西煤矿爆炸事故新闻发布会 通报90人遇难详情
5月22日19时29分,山西沁源县通洲集团留神峪煤矿发生瓦斯爆炸。截至5月23日14时,事故已造成90人死亡。5月23日晚,事故救援情况发布会召开,通报相关情况

0评论2026-05-2411