Meta 新模型 Llama-4-Maverick 排名骤降，引发刷榜质疑

作者：AI在线 2025-04-14 06:01

近日，Meta 公司发布的开源大模型 Llama-4-Maverick 在 LMArena 的排行榜上从第二名直降至第32名，这一剧烈波动引发了开发者们的广泛质疑，认为 Meta 可能通过提交特供版本以刷榜。事情的起因要追溯到4月6日，Meta 发布了其最新的大模型 Llama4，包括 Scout、Maverick 和 Behemoth 三个版本。其中，Llama-4-Maverick 在初期的评估中表现亮眼，位列 LMArena 排行榜的第二名，仅次于 Gemini2.5Pro。

然而，随着开发者对 Llama4开源版的实际使用反馈逐渐披露，这款模型的声誉迅速下滑。一些开发者发现 Meta 提交给 LMArena 的版本与他们所公开的开源版本存在显著差异，这引发了对 Meta 是否存在刷榜行为的质疑。针对这一问题，Chatbot Arena 官方于4月8日确认，Meta 提供的确实是一个 “特供版”，并表示将考虑更新排行榜。

LLM 羊驼数学大模型

图源备注：图片由AI生成，图片授权服务商Midjourney

根据 Chatbot Arena 的说法，Meta 首次提交的 Llama-4-Maverick-03-26-Experimental 是一个实验性优化版本，这个版本当时排名第二。而修正后的开源版 Llama-4-Maverick-17B-128E-Instruct，虽然拥有17B 的激活参数和128个 MoE 专家，排名却仅为32名，远远落后于 Gemini2.5Pro、GPT4o 等更高排名的模型，甚至不及基于上一代模型改造的 Llama-3.3-Nemotron-Super-49B-v1。

对于 Llama-4-Maverick-03-26-Experimental 为何表现不如预期，Meta 在最近的一次发布会上解释称，该模型是 “专门针对对话进行优化” 的，因此在 LM Arena 上的表现相对较好。这种优化虽然在排行榜上取得了高分，但也使得开发者们在不同场景下难以准确预测该模型的实际表现。

Meta 发言人向 TechCrunch 表示，Meta 会继续探索各种定制版本，并期待开发者根据自己的需求对 Llama4进行调整和改进。公司希望看到开发者们的创造性成果，同时也重视他们的反馈。

IBM 强化 watsonx.ai:DeepSeek-R1蒸馏版 Llama 模型上线

IBM 近日宣布，其 AI 开发平台 watsonx.ai 现已支持 DeepSeek-R1蒸馏版的 Llama3.18B和 Llama3.370B模型。 DeepSeek 通过知识蒸馏技术，利用 R1模型生成的数据对多个 Llama和 Qwen变体进行了优化，进一步提升了模型性能。在 watsonx.ai平台上，用户可以通过两种方式使用 DeepSeek 蒸馏模型。

2/11/2025 2:25:00 PM

AI在线

自有歪果仁为DeepSeek「辩经」：揭穿围绕DeepSeek的谣言

围绕 DeepSeek 的谣言实在太多了。面对 DeepSeek R1 这个似乎「一夜之间」出现的先进大模型，全世界已经陷入了没日没夜的大讨论。从它的模型能力是否真的先进，到是不是真的只用了 550W 进行训练，再到神秘的研究团队，每个角度都是话题。

2/5/2025 2:37:00 PM

机器之心

程序员购买OGOpenAI.com域名转向DeepSeek

最近，一名软件工程师以 “不到一顿 Chipotle 餐的价格” 购买了 OGOpenAI.com 域名，并将其重定向至中国人工智能实验室 DeepSeek 的网站。该实验室在开源 AI 领域崭露头角，吸引了广泛的关注。据软件工程师阿纳奈・阿罗拉（Ananay Arora）向《TechCrunch》透露，他的初衷是为了支持 DeepSeek，因为该实验室最近推出了一款名为 DeepSeek-R1的开放版本模型，声称在某些基准测试中表现优于 OpenAI 的 o1。

1/23/2025 4:32:00 PM

AI在线

Meta 新模型 Llama-4-Maverick 排名骤降，引发刷榜质疑

相关资讯

IBM 强化 watsonx.ai:DeepSeek-R1蒸馏版 Llama 模型上线

自有歪果仁为DeepSeek「辩经」：揭穿围绕DeepSeek的谣言

程序员购买OGOpenAI.com域名转向DeepSeek