[返回笔会文聊首页]·[所有跟帖]·[ 回复本帖 ] ·[热门原创] ·[繁體閱讀]·[坛主管理]

请教一下,如果Deepseek用了别人不同的新思路,那么蒸馏是无用的吧。

送交者: walkalong[♂☆★★声望品衔12★★☆♂] 于 2025-01-31 13:05 已读 1181 次  

walkalong的个人频道

+关注

回答: qwen也很好。有人猜是从Qwen做的蒸馏。 由 太湖清奇 于 2025-01-31 8:57

我的理解,Deepseek是有选择性地省略掉很多别人都不省略的计算,从而对整体算力的要求大幅降低。。。省什么不省什么才是算法的诀窍,他们自己不说,别人看明白的也不会说,只有如此才能解释小扎立刻组了几队人折分并研究Deepseek,一定是感觉它有什么独到的地方,不只是复制OpenAI的成功经验。
喜欢walkalong朋友的这个贴子的话, 请点这里投票,“赞”助支持!

内容来自网友分享,若违规或者侵犯您的权益,请联系我们

所有跟帖:   ( 主贴楼主有权删除不文明回复,拉黑不受欢迎的用户 )


用户名: 密码: [--注册ID--]

标 题:

粗体 斜体 下划线 居中 插入图片插入图片 插入Flash插入Flash动画


     图片上传  Youtube代码器  预览辅助



[ 留园条例 ] [ 广告服务 ] [ 联系我们 ] [ 个人帐户 ] [ 创建您的定制新论坛频道 ] [ Contact us ]