DeepSeek 再次爆火:高效低价的AI典范
近日,国内AI初创公司DeepSeek发布了新一代大语言模型DeepSeek-V3,并宣布开源。这一举动在多项基准测试中展现了卓越性能,超越了主流开源模型,并与世界顶尖闭源模型不相上下。
低成本高效率
更重要的是,V3的训练成本极低,仅为某知名闭源模型的二十分之一;售价也显著降低,输入+输出价格约为该闭源模型的十分之一。尽管目前不支持多模态输入输出,但其性价比和性能表现依然令人瞩目。
背景与影响
DeepSeek隶属于量化资管公司幻方,成立于2023年7月。作为“AI界高效低价典范”,DeepSeek为当前的人工智能技术提供了新的发展方向,贡献了中国力量。
市场反响
V3不仅在人工智能界引发轰动,还因其母公司是知名量化基金公司,在资本市场引发了热烈讨论。据报道,小米正搭建GPU万卡集群,并以千万年薪挖来了DeepSeek-V2关键开发人员之一的95后罗福莉,被誉为“AI天才少女”。
技术优势
多个实测表明,V3在数学基准(MATH 500)和AIME 2024测试方面超越了国际主流大模型Llama 3.1-405B、Claude-3.5-Sonnet等。代码能力方面,V3比国外主流大模型高出约30分;在软件工程和知识问答方面略逊于Claude-3.5-Sonnet。
DeepSeek的技术论文自豪地宣称:“综合评估表明,DeepSeek-V3-Base已经成为目前可用的最强大的开源基础模型,特别是在代码和数学方面。”
极低的训练成本
DeepSeek披露,V3的预训练阶段在不到两个月的时间内完成,成本为2664K GPU小时。结合其他训练环节,总训练成本仅为2.788M GPU小时,相当于557万美元。相比之下,某知名闭源模型的训练成本约为1亿美元,而训练一个7B的Llama 2也要花费76万美元。
新的发展路径
DeepSeek-V3的出现提供了一种新的可能:更短的时间、更高的效率、更低的成本,达到同等水平。这为通用大语言模型的发展路径提供了“中国版本”。
行业启示
DeepSeek-V3的发布不仅展示了多种可能的发展路径,也证明了中国在人工智能领域的创新能力正在大幅提升。多位硅谷知名AI大佬对DeepSeek给予了高度评价,认为它在有限资源下通过聪明的研究产生了最好的结果。
这一轮人工智能浪潮带来了前所未有的想象力。正如DeepSeek创始人梁文锋所说,中国产业结构的调整升级将更依赖硬核科技的创新。在半导体、大模型等领域,中国企业拥有前所未有的机会,那些带来颠覆性创新产品或方案模式的公司,将成为下一个伟大的企业。
DeepSeek的成功不仅是技术上的突破,更是商业模式的创新。它证明了低成本高效率的研发路径同样可以实现顶尖的技术成果,为全球AI发展注入了新的活力。