Deepseek V3之前1年的V2版本也是开源的。只是效果不够好而已
回答: 说明一下哈,虎虎虎时刻是我自己的脑洞,瞎开的,但你又偷换概念,偷 由 walkalong 于 2025-02-01 15:51
不是突然间开源,我说的是你这句话不对。什么突然间开源。人家本来就是开源的。不是中国的deepseek赢而,而是开源世界赢了。meta的首席这么说我认为他说的对。没有meta的开源,就没有ali就没有百川跟没有qwen文心一言等等。你说llama不如deepseek,这是当然,你开源了基础,人家在你的基础上进一步研发。能不更好?不更好的也有,那没有人看啊。只有更好的才有人看。开源就是这样。劳动是第一人权。但是开源不代表消灭私有制,开源是东西是我的,你必须承认。然后我免费给你们用。不为啥,就为爽。这种君子气度。》》[1]
海外广泛引用的550万美金是v3,而不是r1的训练成本,且550万只是v3实际训练成本的零头。v3论文原话:上述成本仅包括DeepSeek-V3 的正式训练,不包括与架构、算法、数据相关的前期研究、消融实验的成本。社群内一位算法工程师就曾说“v3用了幻方自己的r1模型生成数据,这个部分的反复尝试要不要算在成本里呢?”一个意思。https://wallstreetcn.com/articles/3740060[2]
在大模型领域,算力是稀缺的资源,DeepSeek则是“万卡GPU训练集群,无需申请,不限使用”。 对于这些人才,多名熟悉DeepSeek的AI业内人士也反馈,给出的薪酬极具竞争力。
真正让Deepseek在AI界出圈的,是其在2024年5月开源的第二代MoE大模型DeepSeek-V2。该模型在性能上比肩GPT-4 Turbo,价格却只有GPT-4的百分之一,DeepSeek由此被称作“价格屠夫”、“AI界的拼多多”。随后的2024年下半年,这家公司还先后发布了DeepSeek R1-lite-preview和DeepSeek-V3。到了2025年推出的R1模型,在数学能力测试中,该模型在MATH基准测试上达到了77.5%的准确率,与OpenAI的o1不相上下;在编程领域,R1在Codeforces评测中达到了2441分的水平,高于96.3%的人类参与者。而这一切,是在不到600万美元的投入和2048块低性能的H800芯片的条件下完成的,训练时间仅用两个月。这种“四两拨千斤”的模式,颠覆了人们对OpenAI“大力出奇迹”式的固有认知,结果令全球侧目。https://news.ifeng.com/c/8gTj7KcbOYT[3]微软CEO纳德拉也在电话会上强调,DeepSeek R1模型目前已可通过微软的AI平台Azure AI Foundry和GitHub获取,并且很快就能在Copilot+电脑上运行。纳德拉称DeepSeek“有一些真的创新”,AI成本下降是趋势:“缩放定律(Scaling Law)在预训练和推理时间计算中不断积累。多年来,我们已经看到了AI训练和推理方面的效率显著提高。在推理方面,我们通常看到每一代硬件的性价比提高2倍以上,每一代模型的性价比提高10倍以上。”
https://www.stcn.com/article/detail/1512742.html×××××××××××以下是您链接的文章的摘要和一些见解:培训成本明细:DeepSeek-V3 提到的 550 万美元只是整体培训成本的一部分,其中不包括与架构、算法或数据研究阶段相关的费用。这意味着实际培训成本可能要高得多。此外,部分成本来自使用他们的 R1 模型为 V3 生成数据,这增加了计算的复杂性。创新和竞争优势:DeepSeek 通过提供 AI 效率的显著改进,将自己定位为主要参与者。使用“低性能”H800 芯片,结合高效的训练设置,使他们能够以极低的成本实现与 GPT-4 等模型相当的结果。他们对尖端算法和缩放定律(每一代模型都变得更具成本效益)的关注似乎是他们迅速成功和获得认可的主要原因。与微软的合作:DeepSeek 的模型(例如 R1)现在可通过微软的 Azure AI 平台使用,这有助于进一步扩大其用途。这些模型的效率,尤其是其降低 AI 训练和推理成本的能力,被公认为行业游戏规则的改变者,这可能会对高级 AI 模型的整体可访问性和可负担性产生重大影响。看到 DeepSeek 通过提高高性能模型的成本效益来挑战 AI 领域的老牌企业,这真是令人着迷。成本效益、创新和战略合作伙伴关系的结合似乎推动了他们的成功。与 OpenAI 等公司相比,您认为他们的方法如何?
内容来自网友分享,若违规或者侵犯您的权益,请联系我们
所有跟帖: ( 主贴楼主有权删除不文明回复,拉黑不受欢迎的用户 )
楼主前期社区热帖:
>>>>查看更多楼主社区动态...