大模型「减速」:尺度定律失效了吗?
近期,OpenAI的Orion(GPT-5)、Google的Gemini以及Anthropic的Opus 3.5等大模型的研发进展均遭遇瓶颈,引发了业界对“Scaling Law”(尺度定律)是否失效的广泛讨论。
Scaling Law认为,大模型性能提升取决于计算量、数据集大小和模型参数量,三者之间存在幂律关系。然而,最新情况表明,单纯增加这三方面的投入,并不能保证模型性能的线性提升,甚至可能出现成本增加、性能提升有限的情况,这引发了对Scaling Law有效性的质疑。
一部分人认为Scaling Law神话已终结。OpenAI前首席科学家Ilya Sutskever认为,传统的无监督预训练已达极限,需要探索新的训练方法。普林斯顿大学教授Arvind Narayanan和其博士生Sayash Kapoor则指出,“涌现能力”并非由任何定律支配,且合成数据并不能无限提升模型性能,高质量的数据至关重要。
但另一部分人对此持反对意见。OpenAI CEO Sam Altman认为Scaling Law仍然有效,未来仍有提升空间;微软AI主管Mustafa Suleyman强调模型蒸馏等技术能够有效利用大型模型训练小型模型;微软CEO Satya Nadella和CTO Kevin Scott也表达了对Scaling Law持续有效性的信心。
此外,一篇关于“Scaling Laws of Precision”的论文提出,精度在模型扩展规律中比以往认为的更重要。低精度量化在大型模型训练中可能不再有效,高精度训练对于提升大型模型性能至关重要。
总而言之,大模型的研发目前面临挑战,单纯依靠增加计算量、数据和参数量的方式可能已接近极限。未来,或许需要探索新的训练方法、提高数据质量、优化模型精度等多种途径,才能实现大模型性能的持续提升。即使LLM发展暂时停滞,基于现有模型,仍然有至少十年的产品开发空间。
本文 ethergome.com 原创,转载保留链接!网址:http://ethergome.com/post/340.html
1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。
这篇文章给了我很大的启发!原来大型语言模型的研发并非一帆风顺,还有很多挑战和瓶颈。了解到不同专家对Scaling Law的看法,以及未来可能的研究方向,让我对AI的发展有了更全面的认识。
看来大模型的发展并非一帆风顺,资源堆砌的时代可能要过去了? 新的训练方法和高质量数据将成为关键。期待看到更多创新!