
中国 AI 实验室 Deepseek 发布了 V3.2,这是一个新的语言模型,在关键基准测试和推理任务中与 GPT-5 和 Google 的 Gemini 3 Pro 相匹敌。
V3.2 的改进
Deepseek 团队发现目前开源模型的三个主要缺陷:长文本处理效率低下、自主代理能力薄弱,以及后期训练投入不足。 根据新发布的技术报告,V3.2 通过重新设计的注意力架构和大规模的后期训练来解决这些问题。 该公司在 9 月份发布了一个名为 V3.2-Exp 的初步版本,预告了这些功能。
DSA 技术
核心升级是 Deepseek Sparse Attention (DSA)。 标准模型会为每个新的响应重新检查每个先前的 token,这对于长时间的对话来说是一个计算量很大的过程。 DSA 使用一个小型索引系统来识别文本历史中的重要部分。 通过只读取必要的内容,该模型在不牺牲质量的情况下降低了计算成本。 Deepseek 表示,这大大加快了长输入的处理速度,但该公司没有分享具体的数字。
展开剩余50%基准测试结果
在AIME 2025数学竞赛中,V3.2的得分为93.1%,仅次于GPT-5(High)的94.6%。 OpenAI 此后发布了 GPT-5.1 和更新的 Codex 模型。 在编程方面,V3.2 在 LiveCodeBench 上的命中率为 83.3%,再次仅次于 GPT-5 的 84.5%。 Google 的Gemini 3 Pro仍然是领先者,在AIME中的得分为95.0%,在LiveCodeBench中的得分为90.7%。 在使用真实GitHub issue测试软件开发的SWE Multilingual上,V3.2解决了70.2%的问题,优于GPT-5的55.3%。 它在Terminal Bench 2.0上也优于GPT-5(46.4%对35.2%),但落后于Gemini 3 Pro(54.2%)。
发布于:广东省信康配资提示:文章来自网络,不代表本站观点。