李飞飞团队“50美元”复刻DeepSeek-R1?一文读透“白菜价”背后的真正逻辑
小微
2025月07月24日
阅读数 61515
2月6日,据外媒报道,李飞飞等研究人员用不到50美元和16张英伟达H100 GPU,耗时26分钟训练出s1-32B人工智能推理模型。据外界分析,该模型基于预训练模型微调,成本未涵盖前期“烧钱”部分,且只在特定测试集上超过o1-preview,未超过“满血版”o1和DeepSeek-R1。在“白菜价”的背后,李飞飞团队重点研究了如何以简单方式实现“测试时拓展”,即模型在推理时多次迭代优化结果,还构建了高质量数据集s1K,降低了训练成本。
图片来源于网络,如有侵权,请联系删除
推荐阅读:
版权声明
本文仅代表作者观点,不代表xx立场。
本文系作者授权xx发表,未经许可,不得转载。