DeepSeek 再次爆火：高效低价的AI典范

AI快讯 2周前 AICAT

93 0 2

近日，国内AI初创公司DeepSeek发布了新一代大语言模型 DeepSeek-V3，并宣布开源。这一举动在多项基准测试中展现了卓越性能，超越了主流开源模型，并与世界顶尖闭源模型不相上下。

更重要的是，V3的训练成本极低，仅为某知名闭源模型的二十分之一；售价也显著降低，输入+输出价格约为该闭源模型的十分之一。尽管目前不支持多模态输入输出，但其性价比和性能表现依然令人瞩目。

DeepSeek隶属于量化资管公司幻方，成立于2023年7月。作为“AI界高效低价典范”，DeepSeek为当前的人工智能技术提供了新的发展方向，贡献了中国力量。

V3不仅在人工智能界引发轰动，还因其母公司是知名量化基金公司，在资本市场引发了热烈讨论。据报道，小米正搭建GPU万卡集群，并以千万年薪挖来了DeepSeek-V2关键开发人员之一的95后罗福莉，被誉为“AI天才少女”。

多个实测表明，V3在数学基准（MATH 500）和AIME 2024测试方面超越了国际主流大模型Llama 3.1-405B、Claude-3.5-Sonnet等。代码能力方面，V3比国外主流大模型高出约30分；在软件工程和知识问答方面略逊于Claude-3.5-Sonnet。

DeepSeek的技术论文自豪地宣称：“综合评估表明，DeepSeek-V3-Base已经成为目前可用的最强大的开源基础模型，特别是在代码和数学方面。”

DeepSeek披露，V3的预训练阶段在不到两个月的时间内完成，成本为2664K GPU小时。结合其他训练环节，总训练成本仅为2.788M GPU小时，相当于557万美元。相比之下，某知名闭源模型的训练成本约为1亿美元，而训练一个7B的Llama 2也要花费76万美元。

DeepSeek-V3的出现提供了一种新的可能：更短的时间、更高的效率、更低的成本，达到同等水平。这为通用大语言模型的发展路径提供了“中国版本”。

DeepSeek-V3的发布不仅展示了多种可能的发展路径，也证明了中国在人工智能领域的创新能力正在大幅提升。多位硅谷知名AI大佬对DeepSeek给予了高度评价，认为它在有限资源下通过聪明的研究产生了最好的结果。

这一轮人工智能浪潮带来了前所未有的想象力。正如DeepSeek创始人梁文锋所说，中国产业结构的调整升级将更依赖硬核科技的创新。在半导体、大模型等领域，中国企业拥有前所未有的机会，那些带来颠覆性创新产品或方案模式的公司，将成为下一个伟大的企业。

DeepSeek的成功不仅是技术上的突破，更是商业模式的创新。它证明了低成本高效率的研发路径同样可以实现顶尖的技术成果，为全球AI发展注入了新的活力。

版权声明：AICAT 发表于 2025-01-05 18:21:58。
转载请注明：DeepSeek 再次爆火：高效低价的AI典范 | AI工具导航

暂无评论

暂无评论...