DeepSeek V3模型于2025年3月24日发布的小版本升级(V3-0324)在多个方面进行了优化和改进,以下是主要升级内容的总结:


1. 编程与数学能力显著提升

  • 前端代码生成能力接近Claude 3.7:新版模型在前端开发(如JavaScript、HTML、CSS整合)中表现突出,生成的代码逻辑完整且具备高可维护性。例如,用户测试显示其生成的动态天气卡片动画代码与Claude 3.7的效果几乎无差异,甚至能在3分钟内完成750行电商网站代码(包含响应式布局和动态悬停效果)。
  • 数学推理能力增强:解决了此前大模型普遍答错的小学数学题,逻辑链条处理更精准,尤其在代码错误检测和多语言支持(如TypeScript)中表现稳健。


2. 对话交互更趋人性化

  • 在多轮对话中,新版模型展现出更强的上下文理解能力,回复语气更接近人类表达习惯,减少了机械感。例如,技术问答时采用更口语化的表述,提升了客服、教育等场景的用户体验。


3. 开源协议与商业友好性

  • MIT许可证全面支持:允许用户自由使用、修改和分发模型,包括商业用途。这一变更降低了企业AI应用门槛,推动开源生态扩展,并可能影响未来AI行业的融资格局。
  • 模型参数与架构优化:参数从初代的671B提升至685B,采用混合专家(MoE)架构和多头潜在注意力(MLA)技术,知识截止日期延长至2024年7月,并优化了Function call功能,解决了此前版本的函数调用问题。


4. 技术架构与性能突破

  • 引入FP8混合精度训练、无辅助损失负载均衡等技术,提升计算效率和性能。模型在训练成本上保持高性价比(初代训练成本557.6万美元,远低于GPT-4o的1亿美元),同时支持低成本的云端部署(如AWS、Azure)。


5. 社区影响与行业竞争

  • 此次升级被开发者评价为“Anthropic的竞争对手”,其开源策略甚至被Perplexity CEO称为“革命性”,可能动摇封闭模型的商业逻辑。用户普遍认为,该模型以免费、开源形式提供顶尖能力,相当于“白送法拉利”,对创业公司尤为友好。


总结

此次升级虽未推出万众期待的V4或R2版本,但通过编程、数学能力的飞跃、对话交互的人性化改进,以及更宽松的开源协议,进一步巩固了DeepSeek在开源模型领域的领先地位。其技术突破和商业策略或将对全球AI行业格局产生深远影响。


以下是我的测试

一、测试代码能力


这里我们以生成动态天气图来举例

提示词:

🏆

请创建一个包含CSS和JavaScript的HTML文件,生成动画天气卡片。具体要求:

  1. 风:移动的云朵和摇摆的树木;
  2. 雨:连续下落的雨滴,落地后形成水坑涟漪;
  3. 雪:随机飘落的雪花,底部积雪逐渐增厚;
  4. 晴:阳光射线从云层透出,背景渐变明亮;

需要注意的是,我们在使用的时候,深度思考联网搜索两个是关闭的,这样才是使用的DeepSeek最新的V3模型。

Image

然后如下图所示,直接点击运行,即可生成漂亮的卡片了。

Image

如下图所示,生成的内容如下:


二、数学能力


这里以2024年数学高考试题举例:

Image

看看DeepSeek的回答:

Image
Image
Image
Image
Image
Image
Image
Image
Image

对于它而言,回答的还是很完美的,我们完全可以相信。


三、对话能力更加的人性化


Image
Image


以上就是璟工给大家总结的关于DeepSeek的此次大更新,感兴趣的话,可以给作者点个关注。

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。