请教一下,如果Deepseek用了别人不同的新思路,那么蒸馏是无用的吧。
回答: qwen也很好。有人猜是从Qwen做的蒸馏。 由 太湖清奇 于 2025-01-31 8:57
我的理解,Deepseek是有选择性地省略掉很多别人都不省略的计算,从而对整体算力的要求大幅降低。。。省什么不省什么才是算法的诀窍,他们自己不说,别人看明白的也不会说,只有如此才能解释小扎立刻组了几队人折分并研究Deepseek,一定是感觉它有什么独到的地方,不只是复制OpenAI的成功经验。
内容来自网友分享,若违规或者侵犯您的权益,请联系我们
所有跟帖: ( 主贴楼主有权删除不文明回复,拉黑不受欢迎的用户 )
楼主前期社区热帖:
>>>>查看更多楼主社区动态...