浮生札记

本周AI:DeepSeek V3.2正式版发布

2025/12/05
89
0

一、 模型发布概览

DeepSeek正式发布了两个模型:DeepSeek-V3.2​ 和 DeepSeek-V3.2-Speciale。此前发布的V3.2实验版(Exp)经过用户测试,验证了其DSA稀疏注意力机制的有效性。目前,官方网页端、App和标准API均已更新为正式版DeepSeek-V3.2。Speciale版本目前仅通过临时API服务开放,供社区研究与评测。

二、 模型特点与性能

  1. DeepSeek-V32(标准版)

    • 定位:平衡推理能力与输出长度,适用于日常问答和通用Agent任务。

    • 推理能力:在公开推理基准测试中,达到了GPT-5的水平,仅略低于Gemini-3.0-Pro。相较于Kimi-K2-Thinking,其输出长度大幅降低,显著减少了计算开销和用户等待时间。

  2. DeepSeek-V3.2-Speciale(长思考增强版)

    • 定位:将开源模型的推理能力推向极致,探索能力边界。它结合了DeepSeek-Math-V2的定理证明能力。

    • 突出成就:在主流推理基准测试上媲美Gemini-3.0-Pro。更令人瞩目的是,该模型在IMO 2025(国际数学奥林匹克)、CMO 2025(中国数学奥林匹克)、ICPC World Finals 2025(国际大学生程序设计竞赛)及 IOI 2025(国际信息学奥林匹克)​ 中均获得金牌。其中,ICPC与IOI成绩分别达到了人类选手第二名与第十名的水平。

    • 注意:Speciale在高度复杂任务上表现大幅优于标准版,但消耗的Tokens更多,成本更高。目前仅供研究使用,不支持工具调用,且未针对日常对话与写作进行专项优化。

三、 核心能力升级:思考融入工具调用

DeepSeek-V3.2是首个将思考过程融入工具使用的模型,同时支持思考模式与非思考模式的工具调用。

  • 通过大规模Agent训练数据合成方法,模型在复杂任务的泛化能力得到大幅提高。

  • 在智能体工具调用评测(如T2-Bench、MCP-Universe等)中,V3.2达到了当前开源模型的最高水平,大幅缩小了与闭源模型的差距。文档强调,模型并未针对测试集进行特殊训练,因此在真实场景中应具备较强的泛化性。

四、 获取与使用

  1. 开源模型

    • DeepSeek-V3.2 与 DeepSeek-V3.2-Speciale 已在Hugging Face和ModelScope平台开源。

  2. API服务更新

    • 标准版V3.2已作为默认服务模型上线。

    • Speciale版本提供了临时API服务(base_url="https://api.deepseek.com/v3.2_speciale_expires_on_20251215"),价格不变,仅支持思考模式下的对话,不支持工具调用,服务截止至北京时间2025年12月15日23:59。

  3. 思考模式工具调用

    • 新版API支持在思考模式下进行多轮思考与工具调用,最终给出更详尽的答案。用户需要在API交互中回传思维链内容(reasoning_content)以让模型持续思考,并在新问题时清除之前的思维链。

    • 思考模式增加了对Claude Code的支持,但未充分适配Cline、RooCode等使用非标准工具调用的组件,建议使用这些组件时切换回非思考模式。