该话题始于 The Information 的一篇文章。这篇文章透露,OpenAI 下一代旗舰模型的质量提升幅度不及前两款旗舰模型之间的质量提升,因为高质量文本和其他数据的供应量正在减少,原本的 Scaling Law(用更多的数据训练更大的模型)可能无以为继。
文章发布后,很多人反驳了这一观点,认为 Scaling Law 还没到撞墙的地步,毕竟很多训练大模型的团队依然能够看到模型能力的持续提升。而且,大家现在所说的 Scaling Law 更多是指训练阶段,而推理阶段的 Scaling Law 还未被充分挖掘,借助测试时间计算等方法,大模型的能力还能更上一层楼。
还有人指出,其实,在文本以外的领域,Scaling Law 的踪迹正在逐渐显现,比如时间序列预测以及图像、视频这类视觉领域。
下面这张图来自投稿给 ICLR 2025 的一篇论文。论文发现,在把类似于 GPT 的自回归模型应用于图像生成时,Scaling Law 同样可以被观察到。具体表现为:随着模型大小的增加,训练损失会降低,模型生成性能会提高,捕捉全局信息的能力也会增强。
论文标题:Elucidating the design space of language models for image generation
为了进一步确认 AR 模型确实能理解图像任务,该团队对不同 AR 模型的注意力图(attention map)进行了可视化,结果发现其注意力机制确实会关注图像的某些局部区域,这说明自回归 Transformer 模型确实可以有效学习局部模式对于图像生成的重要性。这一结果又进一步凸显了自回归 Transformer 在不同领域的强大性能。
AR 模型的注意力图,可以明显看到其中对局部模式的关注
掩码式 AR:判别与生成任务的创新性统一
云天励飞在另一项研究中更深度地探索了 AR 模型在图像领域的可能性。这一次,AR 模型不仅被用来实行图像生成任务,还在图像判别任务上大展拳脚。
这几天,关于 Scaling Law 是否撞墙的讨论还在继续,齐宪标显然并不认可 Scaling Law 已经撞墙的说法 —— 不管是图像还是文本,Scaling 都还能带来明显的提升。不过,他也指出,对于 Scaling Law 的探索注定是一项长期工作,需要从多个方向找突破口,云天励飞也将持续探索。
据了解,今年云天励飞一直在强调「边缘 AI」战略。为此,他们选择了从软硬件两个方向同时前进,即 AI 芯片和大模型。
2024 年被许多人称为「人工智能应用的真正元年」。AI 开始走出开发者和爱好者的圈子,向普罗大众更广泛地渗透。通过在底层技术创新和应用开发两方面持续发力,云天励飞能否在已然卷成红海的 AI 行业博取一块蛋糕?还有待进一步观察。不过,考虑云天励飞在 AI 的App和硬件两方面都已经有了相当厚实的技术沉淀,做到这一点应该并不难。