2025 年 3 月 24 日晚间,杭州深度求索人工智能基础技术研究有限公司(以下简称 “深度求索”)发布了模型更新 ——DeepSeek-V3-0324。本次更新为 DeepSeek V3 模型的版本更新,并非市场此前一直期待的 DeepSeek-V4 或 R2。目前已在 Hugging Face 上开源,并迅速登上了 Trending 榜单,其开源版本模型体积为 6850 亿参数。
同日,DeepSeek 在其官方交流群宣布称,DeepSeek V3 模型已完成小版本升级,该版本的最新模型也已经同步至官网、App 和小程序,关闭 “深度思考” 就可体验。
此次发布的版本更新,在性能上,编程能力的优化成了最大亮点,新版本 DeepSeek-V3-0324 生成前端代码的能力大大提升。不少自媒体博主在社交平台上发帖认为,DeepSeek-V3-0324 模型在前端代码的生成能力上有了质的提升,审美方面也提升了不少,甚至有博主测评称可以媲美 Claude 3.7 Sonnet 思维链版本。有不少用户开始尝试将新模型与此前发布的模型结合解锁新的玩法。有用户称用 DeepSeek-V3-0324 模型尝试编写了 800 多行代码,整个过程没有出现任何故障。“这是免费的、开源的、超快的。很高兴看到这些开源模型如何向大型科技公司施压,以更低的成本构建更好的模型。”
初代 DeepSeek-V3 发布于 2024 年 12 月 26 日晚间,这款模型自上线后便以高性价比火速 “出圈”。根据官方技术论文披露,DeepSeek-V3 模型的总训练成本为 557.6 万美元,而 GPT-4o 等模型的训练成本约为 1 亿美元。深度求索表示,“这是一个全新的开始。” 其后,DeepSeek 于 2025 年 1 月发布了性能比肩 OpenAI o1 正式版的 DeepSeek-R1 模型,该模型在后训练阶段大规模使用了强化学习技术,在仅有极少标注数据的情况下,极大提升了模型推理能力。
热门文章