斯坦福大模型评测榜 Claude 3 排名第一，阿里 Qwen2、零一万物 Yi Large 国产模型进入前十

作者：满河（实习） 2024-06-22 08:17

斯坦福大学基础模型研究中心（CRFM）6 月 11 日发布了大规模多任务语言理解能力评估（Massive Multitask Language Understanding on HELM）排行榜，其中综合排名前十的大语言模型中有两款来自中国厂商，分别是阿里巴巴的 Qwen2 Instruct（72B）和零一万物的 Yi Large（Preview）。据悉大规模多任务语言理解能力评估（MMLU on HELM）采用了 Dan Hendrycks 等人提出的一种测试方法，用于衡量文本模型在多任务学习中的准确性。这个测试

斯坦福大学基础模型研究中心（CRFM）6 月 11 日发布了大规模多任务语言理解能力评估（Massive Multitask Language Understanding on HELM）排行榜，其中综合排名前十的大语言模型中有两款来自中国厂商，分别是阿里巴巴的 Qwen2 Instruct（72B）和零一万物的 Yi Large（Preview）。

据悉大规模多任务语言理解能力评估（MMLU on HELM）采用了 Dan Hendrycks 等人提出的一种测试方法，用于衡量文本模型在多任务学习中的准确性。这个测试内容包括基础数学、美国历史、计算机科学、法律等领域的 57 个任务。要在这个测试中获得高分，模型必须具备广泛的世界知识和解决问题的能力。IT之家附排名如下：

▲ 图源斯坦福大学基础模型研究中心官网

1、Claude 3 Opus（20240229）： Anthropic（美国，亚马逊投资）

2、GPT-4o（2024-05-13）：OpenAI（美国）

3、Gemini 1.5 Pro：谷歌（美国）

4、GPT-4（0613）：OpenAI（美国）

5、Qwen2 Instruct（72B）：阿里巴巴（中国）

6、GPT-4 Turbo（2024-04-09）：OpenAI（美国）

7、Gemini 1.5 Pro（0409 preview）：谷歌（美国）

8、GPT-4 Turbo（1106 preview）：OpenAI（美国）

9、Llama 3（70B）：Meta（美国）

10、Yi Large（Preview）：零一万物（中国）

Qwen2 是由阿里巴巴开发的一款开源大语言模型，发布于今年 6 月 6 日。Qwen2 系列包括 Qwen2-0.5B、Qwen2-1.5B、Qwen2-7B、Qwen2-57B-A14B 和 Qwen2-72B 在内的五个不同规模的预训练及指令微调模型；支持除英语和中文外的额外 27 种语言的数据训练；Qwen2-7B-Instruct 和 Qwen2-72B-Instruct 支持长 128K 个 token 的上下文。

Yi Large 是由零一万物公司开发的一款闭源大模型，Yi 模型系列基于 6B 和 34B 预训练语言模型，然后扩展到聊天模型、200K 长上下文模型、深度升级模型和视觉语言模型。官方宣称“其在关键基准测试分数上优于 GPT-4 和 Claude 3 Opus 等领先模型”。

斯坦福权威报告盖章！阿里通义千问贡献排名全球第三！用算力优势重塑全球竞争格局！

近日，斯坦福大学人工智能研究所发布了《2025年人工智能指数报告》，为全球人工智能领域的发展提供了新的视角。报告指出，阿里巴巴在全球重要大模型贡献中位居第三，成为中国科技公司的领军代表。报告显示，2024年，中国在全球 AI 大模型中贡献了15项，而阿里巴巴的6个模型入选，紧随谷歌与 OpenAI 的7个模型之后。

4/13/2025 7:34:53 AM

AI在线

OpenAI推全新语音转录模型gpt-4o-transcribe，语音转文字准确率飙升

继此前在语音 AI 领域引发一些关注后，OpenAI并未停下在该领域探索的脚步，现在这家ChatGPT的创造者再次发力，推出了三款全新的自主研发语音模型，分别为:gpt-4o-transcribe， gpt-4o-mini-transcribe and gpt-4o-mini-tts。其中最受瞩目的当属gpt-4o-transcribe。目前，这些新模型已经率先通过应用程序接口（API）向第三方开发者开放，开发者们可以利用它们打造更智能的应用程序。

3/21/2025 9:01:00 AM

AI在线

OpenAI发布GPT-4.1系列模型：能力全面超越前代

4月15日，OpenAI 在其官方博客宣布正式发布 GPT-4.1系列模型，涵盖 GPT-4.1、GPT-4.1mini 和 GPT-4.1nano 三款子模型。该系列在编程能力、指令理解及长文本处理等方面实现重大突破，全面超越前代 GPT-4o 及 GPT-4o mini。其中，模型上下文窗口扩展至100万 tokens，知识库更新至2024年6月，为复杂任务提供更强支持。

4/15/2025 9:00:45 AM

AI在线

斯坦福大模型评测榜 Claude 3 排名第一，阿里 Qwen2、零一万物 Yi Large 国产模型进入前十

相关资讯

斯坦福权威报告盖章！阿里通义千问贡献排名全球第三！用算力优势重塑全球竞争格局！

OpenAI推全新语音转录模型gpt-4o-transcribe，语音转文字准确率飙升

OpenAI发布GPT-4.1系列模型：能力全面超越前代