尧图网站建设 尧图网络
  • 首页
  • 关于我们
  • 服务项目
  • 案例展示
  • 建站流程
  • 资讯中心
  • 联系我们
首页/资讯中心/详情

DeepSeek 补齐最后一块拼图:V4 Vision 视觉能力正式上线

DeepSeek 补齐最后一块拼图:V4 Vision 视觉能力正式上线
📅 发布时间:2026/6/20 7:02:04

来源:Hacker News Best(447 points, 181 comments)· 综合评分 5.0/5.0

一、最后一块拼图

2026 年 6 月 18 日,DeepSeek 正式为 V4-Pro 和 V4-Flash 上线了视觉能力。这消息在 Hacker News 上炸出了 447 个赞、181 条讨论。

如果你关注过 DeepSeek 过去 18 个月的轨迹,就知道这步棋意味着什么:

  • 2024.12V3 发布(671B MoE)—— 证明了中国团队能做顶尖大模型
  • 2025.01R1 发布 —— 推理能力震撼全球,引发美股最大单日市值蒸发
  • 2026.04.24V4-Pro/V4-Flash 发布(1.6T/49B active MoE,1M 上下文)—— 性能全面对标 GPT-4o
  • 2026.04.29Vision 灰度测试开始
  • 2026.06.18Vision 正式上线

DeepSeek 从纯文本模型变成了多模态模型。视觉能力是它最后一块没补齐的能力拼图。一年多前,GPT-4o 已经能看、能听、能说。Gemini 原生就是多模态。Claude 3.5 也陆续上了视觉。DeepSeek 的 Vision 来得不算早,但来得很猛。

二、V4 架构速览 —— 1M 上下文是怎么做到的

要理解 DeepSeek Vision 为什么厉害,先要知道 V4 的架构基础。

V4 是一个 1.6 万亿参数的 MoE(Mixture of Experts)模型,每次推理只激活 49B 参数。它有两个关键创新:

Multi-head Latent Attention (MLA)。传统 Transformer 的 KV cache 会随着上下文长度线性增长。V4 把 Key 和 Value 压缩到一个低维隐空间,1M token 上下文的 KV cache 只有传统方案的 5-11%。这意味着你可以在单张 H800 上跑 1M token 的推理。

Compressed Sparse Attention (CSA) 和 Heavy Compressed Attention (HCA)。这两个注意力变体进一步优化了长序列下的计算效率。CSA 做稀疏注意力模式选择,HCA 做高压缩比的全局注意力。它们让 1M token 的「读文档」能力变得实用。

Vision 就是在 V4 这个高效架构上长的眼睛。

三、核心技术:视觉原语(Visual Primitives)

聊视觉模型就一定绕不开成本。一张图片在模型里占多少个 token,直接决定了推理的贵贱。

传统方案有多贵?

  • GPT-4o:每张图压缩成 ~260 个 token
  • Gemini:每张图 ~1100+ 个 token(原生高清支持)
  • Claude 3.5/Opus 4:每张图 ~870 个 token
  • DeepSeek V4 Vision:每张 800x800 图片只占 ~90 个 KV cache 条目

也就是说,一张图用 DeepSeek V4 Vision 处理,成本只有 Claude Opus 的 1/170。

怎么做到的?秘密在于视觉原语(Visual Primitives)。

传统多模态模型的做法是:把图片切成 patch(比如 16x16 像素一块),每个 patch 用一个视觉 encoder(通常是 ViT 或 SigLIP)编码成一个 token。一张 800x800 的图要切成 2500 个 patch,虽然经过压缩能降到 ~260 个 token,但本质上还是把视觉信息「翻译」成自然语言的 token 空间。

DeepSeek 换了个思路。它们不是把图「翻译」成文本 token,而是将视觉信息直接编码为一种更紧凑的中间表示——视觉原语。这种表示天然就是压缩的。一张图的核心视觉信息经过压缩后,只需要约 90 个 KV cache 条目就能表达。

这意味着什么?

  • 推理成本断崖式下降:V4-Flash 定价 $0.14/M input,处理一张图约 $0.000013。拿 Claude Opus 4.8($0.04/M -> $0.12/M)来算,170 倍的成本差异
  • 延迟更低:更少的 KV 条目意味着注意力计算更快
  • 长上下文场景友好:1M token + N 张图,KV cache 不会爆炸

当然,这种激进压缩也有代价。DeepSeek Vision 在复杂多步视觉推理、极小细节识别上弱于 GPT-4o。但它的强项——OCR、文档提取、图表理解、截图分析——已经覆盖了 90% 的实用场景。

四、竞争定位:不止是便宜

维度DeepSeek V4 VisionGPT-4oClaude Opus 4.8Gemini 2.5
视觉定价$0.14/M input~$2.50/M input~$12/M input~$10/M input
每张图成本~$0.000013~$0.00065~$0.0022~$0.0022
图片KV占用~90 条目~260 token~870 token~1100+ token
开源MIT 许可❌❌❌
可自托管✅❌❌❌
强项OCR/文档/截图通用多模态复杂多步推理视频/音频
1M上下文✅❌ (128K)❌ (200K)✅ (1M+)

看出来 DeepSeek 的策略了吗?我不是来跟你比能力的,我是来跟你比性价比的。

准确度达到 GPT-4o 的 90-95%,但价格是 1/10 到 1/170。这个性价比差距已经大到让产品决策者没法忽视了。

还有两个差异化维度值得注意:

开源 MIT。这是 DeepSeek 最大的护城河。对数据主权敏感的行业(金融、医疗、政务),可以部署在自己的基础设施上。图片数据完全不离开自己的网络。这对于视觉场景尤为重要——很多公司不愿意把内部文档截图和产品界面截图发给 OpenAI。

中国基础设施路径。大部分数据走 DeepSeek 的中国服务器。对国内开发者来说延迟更低、合规更简单。对海外企业来说则需要权衡数据主权。

五、更大的棋:价格战、开源闭环、多模态

DeepSeek Vision 上线后,中国 AI 多模态战场又挤进来一个玩家。通义千问、文心一言、讯飞星火都有视觉能力。但 DeepSeek 的打法不一样——它在同时推三件事。

价格战。大模型价格过去一年降了 10-100 倍。V4-Flash 的 $0.14/M 把行业底线拉到了地板下面。Vision 没走高毛利路线——目的是占入口,不是短期利润。

开源闭环。V4 权重 MIT 许可。下下来就能用、能调、能重新打包。加上 Vision 后,开发者一台机器就能跑全套视觉应用。GPT-4o 给不了这个。

中国多模态的整体进步。一年前中国开源和闭源的差距还很明显。现在 V4 Vision 几个基准上已经能和 GPT-4o 掰手腕了。对国内市场来说,一个 MIT 许可、性能接近 GPT-4o 的多模态模型,意味着一堆新产品形态成为可能。不用再纠结「要不要花这个钱」。

六、给开发者的建议

如果你是开发者,现在应该做什么:

第一,试一下。

DeepSeek 提供 OpenAI 兼容 API,只需改 base_url 就能接入:

fromopenaiimportOpenAI client=OpenAI(base_url="https://api.deepseek.com/v1",api_key="your-api-key")# 单图分析response=client.chat.completions.create(model="deepseek-v4-pro",messages=[{"role":"user","content":[{"type":"text","text":"这份图表显示什么趋势?用中文回答"},{"type":"image_url","image_url":{"url":"https://example.com/chart.png"}}]}])print(response.choices[0].message.content)

第二,算一下账。

如果业务涉及大量图片处理(文档识别、截图分析、图表 OCR),迁移到 V4 Vision 的成本节省可能是一个数量级。

第三,考虑自部署。

如果数据安全敏感,可以 Docker 部署 V4,视觉数据全程不出本机。自部署还能避免 API token 过期、速率限制等问题。


DeepSeek Vision 不是个惊喜——它就是按计划来的。从 V3 到 R1 到 V4 再到 Vision,路线清楚,执行稳定。视觉能力补齐后,DeepSeek 的产品形态已经是个完整的平台了。

接下来要看的是多步视觉推理能不能追上 GPT-4o。V4 的架构还有不少优化空间。中国团队这波追赶速度,比大多数人预想的要快。


参考来源:DeepSeek 官方公告、Hacker News 讨论(447 points)、DeepSeek V4 技术报告

相关新闻

  • 基于WebGL的HDRI到立方体贴图实时转换技术解析
  • 品牌视觉操作系统:用AI实现可追溯、可迭代的VI设计
  • Python毕业设计-基于 Django 与协同过滤算法的图书推荐系统的设计与实现 融合协同过滤算法的智能图书推荐平台(源码+LW+部署文档+全bao+远程调试+代码讲解等)

最新新闻

  • 「指南」从零到一:Conda环境管理与实战避坑
  • 郑州黄金回收隐形套路大曝光,合扬无折旧费无手续费真实报价 - 奢侈品交易观察员
  • 2026 郑州靠谱黄金回收筛选标准,CCIC 认证合扬规避掉秤骗局 - 奢侈品交易观察员
  • 2026年惠州市贵金属旧料回收优质靠谱实体门店精选五家 黄金回收铂金回收白银回收彩金回收真实探店测评清单及联系方式推荐 - 前途无量YY
  • 碧蓝航线Alas自动化脚本:5分钟快速上手完整教程
  • 蓝桥杯实战解析:NE555定时器在单片机测频系统中的应用

日新闻

  • 信任的进化:技术实现详解——如何用JavaScript构建博弈论模拟器
  • Terrakube自定义工作流:如何集成OPA、Infracost等工具扩展IaC能力
  • grunt-concurrent快速入门:5分钟学会并行运行Grunt任务

周新闻

  • 3步解锁iOS设备:applera1n激活锁绕过完全指南
  • 39 2026 人工智能证书终极盘点,普通人选 AI 证书可以从这些方向入手
  • Redis 暴露公网有多危险?从端口检查到补救步骤

月新闻

  • 【总结】入门篇:50句话让你记住架构核心概念
  • WeChatMsg技术方案解析:实现Mac微信数据自主管理的完整解决方案
  • WeChatMsg:革新性微信数据备份方案,打造你的专属数字记忆库

关于尧图

  • 公司简介
  • 团队介绍
  • 企业文化
  • 荣誉资质

服务项目

  • 定制开发
  • 电商建站
  • UI 设计
  • 运维服务

快速链接

  • 案例展示
  • 建站流程
  • 常见问题
  • 资讯中心

联系方式

  • 📍北京市朝阳区互联网产业园 A 座 10 层
  • 📞400-888-8888
  • ✉️contact@rkmt.cn
  • 🕐周一至周日 9:00-21:00

© 2024 北京尧图网络科技有限公司 版权所有 | 京 ICP 备 XXXXXXXX 号