当前位置: 首页 > news >正文

DeepSeek-V3.2-Exp 发布,训练推理提效,API 同步降价

微信视频号:sph0RgSyDYV47z6
快手号:4874645212
抖音号:dy0so323fq2w
小红书号:95619019828
B站1:UID:3546863642871878
B站2:UID: 3546955410049087
正式发布 DeepSeek-V3.2-Exp 模型,这是一个实验性(Experimental)的版本。作为迈向新一代架构的中间步骤,V3.2-Exp 在 V3.1-Terminus 的基础上引入了 DeepSeek Sparse Attention(一种稀疏注意力机制),针对长文本的训练和推理效率进行了探索性的优化和验证。
目前,官方 App、网页端、小程序均已同步更新为 DeepSeek-V3.2-Exp,同时 API 大幅度降价,欢迎广大用户体验测试并向我们反馈意见。
DeepSeek Sparse Attention(DSA)
稀疏注意力机制
DeepSeek Sparse Attention(DSA)首次实现了细粒度稀疏注意力机制,在几乎不影响模型输出效果的前提下,实现了长文本训练和推理效率的大幅提升。
 
 
 
添加图片注释,不超过 140 字(可选)
为了严谨地评估引入稀疏注意力带来的影响,我们特意把 DeepSeek-V3.2-Exp 的训练设置与 V3.1-Terminus 进行了严格的对齐。在各领域的公开评测集上,DeepSeek-V3.2-Exp 的表现与 V3.1-Terminus 基本持平。
 
 
添加图片注释,不超过 140 字(可选)
论文链接 & 模型开源
DeepSeek-V3.2-Exp 模型现已在 Huggingface 与魔搭开源:
  • HuggingFace
https://huggingface.co/deepseek-ai/DeepSeek-V3.2-Exp
  • ModelScope
https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.2-Exp
论文也已同步公开:
https://github.com/deepseek-ai/DeepSeek-V3.2-Exp/blob/main/DeepSeek_V3_2.pdf
TileLang & CUDA 算子开源
在新模型的研究过程中,需要设计和实现很多新的 GPU 算子。我们使用高级语言 TileLang 进行快速原型开发,以支持更深入的探索。在最后阶段,以 TileLang 作为精度基线,逐步使用底层语言实现更高效的版本。因此,本次开源的主要算子包含 TileLang 与 CUDA 两种版本。我们建议社区在进行研究性实验时,使用基于 TileLang 的版本以方便调试和快速迭代。
API 支持
得益于新模型服务成本的大幅降低,官方 API 价格也相应下调,新价格即刻生效。
 
 
添加图片注释,不超过 140 字(可选)
在新的价格政策下,开发者调用 DeepSeek API 的成本将降低 50% 以上。
目前 API 的模型版本为 DeepSeek-V3.2-Exp,访问方式保持不变。欢迎用户使用 DeepSeek 官方的 API 服务。
用户场景对比测试
作为一个实验性的版本,DeepSeek-V3.2-Exp 虽然已经在公开评测集上得到了有效性验证,但仍然需要在用户的真实使用场景中进行范围更广、规模更大的测试,以排除在某些场景下效果欠佳的可能。为方便用户进行对比测试,我们为 DeepSeek-V3.1-Terminus 临时保留了额外的 API 访问接口。用户只需修改base_url="https://api.deepseek.com/v3.1_terminus_expires_on_20251015" 即可访问 V3.1-Terminus,调用价格与 V3.2-Exp 相同。该接口将保留到北京时间 2025 年 10 月 15 日 23:59,更详细的使用方法请参考官方文档 https://api-docs.deepseek.com/zh-cn/guides/comparison_testing。
 
微信视频号:sph0RgSyDYV47z6
快手号:4874645212
抖音号:dy0so323fq2w
小红书号:95619019828
B站1:UID:3546863642871878
B站2:UID: 3546955410049087
 
参考文献链接
DeepSeek-V3.2-Exp 发布,训练推理提效,API 同步降价
 
 
http://www.rkmt.cn/news/14102.html

相关文章:

  • 9.29 闲话
  • US$16 Yanhua BMW F/G Chassis Odometer Wiring Harness
  • US$980 Xhorse VVDI2 BMW OBD + CAS4 +FEM/BDC Functions Full BMW License
  • 2025年9月29日
  • 最高人民法院新劳动争议司法解释一 理解与适用
  • 逆元 组合数问题
  • 一、驱动基础知识速览(迅为RK3568)
  • MonoDETR(2)
  • 记录---window.close()失效 + Chrome浏览器调试线上代码
  • 启发式合并 [USACO22DEC] Making Friends P
  • 加密的病例单
  • 【多线程】什么是原子操作(Atomic Operation)? - 详解
  • 复刻江协旋钮控制模块
  • c语言switch和if语句
  • Qt(制作一个方便的文本编辑器)
  • tldr的安装与利用
  • 题解:P7126 [Ynoi2008] rdCcot
  • 实用指南:汽车地带AutoZone EDI需求分析及对接指南
  • 航司网站url后缀参数FECU分析
  • 优化 if/else 的四种设计模式
  • 多corner综合
  • Day11-C:\Users\Lenovo\Desktop\note\code\JavaSE\Basic\src\com\oop\demo06
  • OpenLayers地图交互 -- 章节十一:拖拽材料交互详解
  • 通过IDOR实现权限提升导致未授权用户注入
  • kuboard使用的etcd空间满了如何处理
  • 从拆盒到共创:手办盲盒抽赏小程序的多元体验与文化联结 - 实践
  • xinference推理embedding等小模型
  • day15-项目上线
  • Docker入门 - 实践
  • react useCallback Hook详解