AIGC宇宙 AIGC宇宙

大模型界「摩尔定律」Densing Law 来了!盲目Scaling将过时!清华刘知远团队发现:大模型能力密度约100天翻倍!

整理 | 伊风出品 | 51CTO技术栈(微信号:blog51cto)Scaling Law会失效吗? 虽然 OpenAI CEO 奥特曼掷地有声地说“这里没有墙”。 但是,OpenAI的最近的发布也没有那么炸了,尤其是 o1 Pro 比满血版在编程能力上仅高出一分,似乎更让人相信了“墙”的存在。

整理 | 伊风

出品 | 51CTO技术栈(微信号:blog51cto)

Scaling Law会失效吗?

虽然 OpenAI CEO 奥特曼掷地有声地说“这里没有墙”。但是,OpenAI的最近的发布也没有那么炸了,尤其是 o1 Pro 比满血版在编程能力上仅高出一分,似乎更让人相信了“墙”的存在。

是时候跳出Scaling Law了!

清华NLP实验室刘知远教授团队,提出的Densing Law(密度定律),给了我们一个全新的视角!

图片图片

不同于Scaling Law,认为随着模型规模(如参数数量)、训练数据集大小等参数的增长,模型性能会按照一定的幂律进行可预测的提高。

大模型的密度定律的表达,与摩尔定律相似,重点讨论了能力如何随着时间而增强。

简而言之:大模型能力密度约100天翻一倍!

图片图片

什么是能力密度呢?

研究团队将其定义为模型的“有效参数量”与实际参数量的比值,是一种衡量 LLM(Large Language Model)训练质量的新指标。

举个论文中的例子:2024年2月1日发布的MiniCPM-1-2.4B,其性能可以与2023年9月27日发布的Mistral-7B相媲美甚至更优。换句话说,4个月后,只需要使用参数量为35%的LLM,即可获得大致相当的性能。

论文的第一作者说,用该定律推算,到明年年底,一个8B的小模型就可以实现GPT-4那么强悍的效果了。

图片图片

此外,研究团队发现,AI时代的三大核心引擎同样遵守密度定律,电力、算力与智力(AI),都有各自的倍增周期。其中,电池能量密度倍增时间为10年,芯片电路密度的倍增时间则为18个月。

在论文的主要发现部分,研究团队还发现了5个重要的推论,让我们展开讲讲:

1.模型的推理开销随时间呈指数级下降

根据密度定律(Densing Law),每三个月后,我们就可以用参数减半的模型,达到与以前相当的性能效果。

因此,在实现相同任务性能的情况下,推理成本正以指数速度下降。

团队发现,从2023年1月到现在,GPT-3.5级别模型的推理成本已降低了266.7倍。

图片图片

2.大模型能力密度呈加速增强趋势

团队比较了 ChatGPT 发布前后 LLM 密度的增长趋势,发现在这一节点后,LLM 密度的增长速度提高了 50%!

这个结论不意外——可以说这波AI热就是从ChatGPT发布掀起的。

无论我们怎么吐槽OpenAI的封闭生态,其对AI发展的巨大推动是不可磨灭的。

图片图片

3.模型小型化揭示端侧智能巨大潜力

摩尔定律(Moore, 1965)指出,相同面积的芯片上集成的电路数量呈指数增长,这意味着计算能力也在指数增长。

而此次提出的密度定律(Densing Law)表明,LLM 的密度每 3.3 个月翻一番。

结合这两个因素,团队提出:在价格相同的芯片上可运行的 LLM 有效参数规模的增长速度,超过了 LLM 密度和芯片计算能力的增长速度。

这种双重增长的模式,就好像在电梯上跑步,让AI在不远的未来能在手机等端侧上丝滑运行。

图片图片

4.无法通过模型压缩增强模型能力密度

剪枝和蒸馏没我们想象得那么有用!

在团队的研究中,通过比较模型与其压缩版本,发现广泛使用的剪枝和蒸馏方法通常会使压缩后的模型密度低于原始模型。

研究认为,应该继续寻找更高效的模型压缩算法,尤其应更加注重提升小模型的密度。

图片图片

5.密度倍增周期决定模型存在“有效期”

一个残酷的事实,大模型也有有效期。

每过数月,就会有更加“实惠”的新模型出现,这就意味着模型必须要在有限期之内,获得足够的盈利才能收支平衡。

研究团队以API盈利方式估算,需要2个月内达成17亿用户访问!

看了这个数字,我们更理解大模型为何如此烧钱。

图片图片

密度定律也提醒了AI圈,不要一味地追求Scaling。

更重要的是如何在模型性能与效率间取得平衡。

“盲目增加模型参数以追求性能提升可能会导致模型密度降低,从而引发不必要的能源消耗。例如,尽管 Llama-3.1-405B(Dubey 等,2024)在开源模型中实现了最先进的性能,但其所需的计算资源是其他模型的数百倍。”

因此,未来的议题应该从单纯的性能优化转向密度优化。大模型走出“应试”,不再执着于榜单上的数字,才能真正走入应用的旷野之中。

参考链接:

1.https://arxiv.org/abs/2412.04315

2.插图来源于研究课题组

相关资讯

腾讯云上线DeepSeek全系API接口并打通联网搜索

腾讯云宣布完成对深度求索(DeepSeek)大模型的深度整合——正式上线DeepSeek-R1和V3原版模型的API接口,并创新性接入自研大模型知识引擎,同步开放联网搜索能力。 凭借腾讯云在推理并发和生成速率等方面的优化,用户可以获得更加稳定、安全、低门槛的使用体验。 开发者只需在云上简单三步即可实现API接口调用,并通过大模型知识引擎提供的文档解析、拆分、embedding、多轮改写等能力,灵活构建专属的AI服务。
2/8/2025 2:09:00 PM
AI在线

微信搜索接入DeepSeek大模型 称AI不会使用朋友圈聊天等信息

近日,微信宣布其搜索功能接入 DeepSeek-R1模型,目前处于灰度测试阶段。 部分用户在微信搜索框选择 AI 搜索时,可体验到 DeepSeek-R1提供的深度思考功能。 微信方面表示,引入大模型旨在提升搜索的智能化和精准度,更好地理解用户搜索意图,分析处理复杂查询。
2/19/2025 11:18:00 AM
AI在线

DeepSeek-R1 登顶 Hugging Face:以10000 赞力压 150 万个模型

今日凌晨,全球最大开源平台之一 Hugging Face 的首席执行官 Clement Delangue 在社交平台发文宣布,DeepSeek-R1在 Hugging Face 上获得了超过10000个赞,成为该平台近150万个模型中最受欢迎的大模型。 这一里程碑式的成就标志着 DeepSeek-R1在全球 AI 社区中的广泛认可与影响力。 DeepSeek-R1的崛起速度令人瞩目。
2/24/2025 9:30:00 AM
AI在线
testab