本帖最后由 最爱Windows预览版 于 2025-2-3 16:36 编辑
纳米AI搜索和纳米AI助手于2025年1月30日上线“DeepSeek-R1”大模型-满血高速专线版。由“DeepSeek-R1-高速专线版”,升级为“DeepSeek-R1-满血高速专线版”。
用户可以在AI机器人(纳米AI助手)页面使用“DeepSeek-R1-满血高速专线版”。
注:纳米AI搜索里的“R1-(满血)高速专线版”大模型是360部署在自己服务器上的版本,其他版本是接入官方API。
在参数量上,本次升级由“蒸馏版32B(DeepSeek-R1-Distill-Qwen-32b)”升级为“671B”。这和原版“DeepSeek-R1”的参数量是一样的。原先的高速专线版是蒸馏版32B的版本。
在2025年1月25日,纳米AI搜索就已接入了“DeepSeek-R1”大模型。2025年1月27日上线“DeepSeek-R1(360高速专线版)”和“DeepSeek-R1(偶尔宕机版)”。 在搜索回答底下支持切换到“DeepSeek-R1(360高速专线版)”大模型来重新生成答案。
以“我是一名备战2025年上半年CET4的大学生,我对英语语法不太熟练,你能给我一些复习方案吗?”问题为例介绍纳米AI搜索App-AI搜索功能现有版本(指截止到2025年1月31日)-“DeepSeek-R1(360高速专线版)”体验(在2025年2月3日,AI搜索功能上了满血版大模型):
如上图,纳米AI搜索接入的大模型思考深度更深,考虑到了“明确考点”、“系统性地学习语法”、“专项练习”、“提升应试能力”、“定期复习规划”、“时间规划建议”和“注意事项”方面。为用户提质增效,提供了一个完善的复习方案。
甚至,它还能为用户生成一张试卷,帮助用户高效学习。可以说,纳米AI搜索有了“DeepSeek-R1”大模型,它能够为“纳米AI搜索”的体验增值。
以上就是360纳米AI搜索本次的升级内容-360纳米AI搜索中的纳米AI助手接入了“DeepSeek-R1(360满血高速专线版)”大模型。
那么,“蒸馏版R1大模型”和“原版R1大模型”有啥区别?
在聊这个话题之前,先来了解“蒸馏”的概念。我用“DeepSeek-R1-满血高速专线版”来代劳,听听它怎么说。
蒸馏就像一位经验丰富的厨师教徒弟做菜。
1. 大模型(教师模型):
大模型就像一位技艺高超的大厨,经过长期的训练和实践,掌握了丰富的烹饪技巧和食材搭配的经验。它能够做出非常复杂、高质量的菜肴,但需要大量的时间和资源。
2. 小模型(学生模型):
小模型就像一位年轻有为的徒弟,虽然还没有大厨的经验,但学习能力强,渴望掌握大厨的技巧。它的目标是通过学习,能够在有限的资源下做出接近大厨水平的菜肴。
3. 蒸馏的过程:
蒸馏的过程就像大厨教徒弟做菜。大厨不会直接告诉徒弟每道菜的全部细节,而是通过一些巧妙的方式(比如示范、分享经验和技巧)让徒弟逐步掌握。
- 大厨会告诉徒弟哪些食材组合更容易成功(软目标)。
- 大厨还会调整教学节奏,让徒弟在学习过程中既能掌握基础,又能逐步提升难度(温度调节)。
- 最终,徒弟通过不断练习和改进,能够在资源有限的情况下,做出接近大厨水平的菜肴。
4. 蒸馏的结果:
小模型通过蒸馏,能够在保持高性能的同时,变得更高效、更轻量。就像徒弟学会了大厨的核心技巧,即使没有大厨的资源,也能在日常生活中做出美味的菜肴。
总结来说,蒸馏就是让小模型“偷师学艺”,在大模型的指导下,快速掌握核心知识,从而在资源有限的环境中也能表现出色。
“DeepSeek-R1-满血高速专线版”的回答通俗易懂,用“大厨教徒弟做菜”的事件做比生动形象。
其实,我们所说的满血版和原版就是模型参数量为671B的R1大模型版本。普通用户可以使用官方网站、APP使用原版大模型。开发者可以用调用API的方式来使用原版大模型。
那这么大的模型,一般的家用电脑运行不了。
所以就有了一些模型参数量为“1.5B”、“7B”、“8B”、“14B”、“32B”、“70B”的蒸馏版R1大模型。
这些模型的参数量大大降低,能够在家用电脑上运行。这些蒸馏版大模型或多或少地都学到了671B本体大模型的能力,在资源有限的设备上起到接近原版回答和推理效果的作用。这些大模型参数量数值越大,就越接近本体大模型的能力。
在训练方法上,满血版是基于deepseek-v3再训练的,而上述的蒸馏版,是在另外的开源模型阿里的QWEN千问和META的LLAMA基础上再训练实现的。
另外,本地蒸馏版大模型也不能联网搜索。
而且,在性能上说:本地蒸馏大模型不是满血版大模型。即使是参数量最大的“70B”大模型,在评测评分上也只是原版大模型得分的十分之一。
所以,之前纳米AI搜索上线的“DeepSeek-R1-高速专线版”大模型模型效果不好是有情可原的。现在纳米AI搜索上线满血版大模型,模型性能大大提升。
最后,欢迎使用纳米AI搜索,支持国产大模型“DeepSeek”。
|
|
|
|
评论
直达楼层