DeepSeek V3 模型小版本升级详情

AI快讯 1周前 AI工具箱导航

0 0

IT之家 3 月 25 日消息，DeepSeek-V3 模型于昨日完成小版本更新，版本号为 DeepSeek-V3-0324。用户登录官方网页、App 或小程序进入对话界面后，只需关闭深度思考功能，即可体验新版本。API 接口及使用方式保持不变。对于非复杂推理任务，建议使用新版本 V3 模型，享受更流畅、效果更佳的对话体验。

模型能力提升

推理任务表现提升：新版 V3 模型借鉴 DeepSeek-R1 模型训练中的强化学习技术，在推理类任务上表现更佳，尤其在数学、代码相关评测集上得分超越 GPT-4.5。

前端开发能力增强：在 HTML 等前端代码任务上，新版 V3 模型生成的代码可用性更高，视觉效果更美观、富有设计感。

中文写作升级：基于 R1 的写作水平，新版 V3 模型在中文写作任务上进一步优化，中长篇文本创作质量显著提升。

中文搜索能力优化：在联网搜索场景下，新版 V3 模型对于报告生成类指令，输出内容更详实准确，排版更清晰美观。

此外，新版 V3 模型在工具调用、角色扮演、问答闲聊等方面也有所提升。

模型开源信息

DeepSeek-V3-0324 与之前的 DeepSeek-V3 使用相同 base 模型，仅改进后训练方法。私有化部署时只需更新 checkpoint 和 tokenizer_config.json（tool calls 相关变动）。模型参数约 660B，开源版本上下文长度为 128K（网页端、App 和 API 提供 64K 上下文）。V3-0324 模型权重下载链接如下：

Model Scope: https://modelscope.cn/models/deepseek-ai/DeepSeek-V3-0324

Huggingface: https://huggingface.co/deepseek-ai/DeepSeek-V3-0324

与 DeepSeek-R1 一致，此次开源仓库（含模型权重）统一采用 MIT License，允许用户利用模型输出、通过模型蒸馏等方式训练其他模型。