AIGC宇宙 AIGC宇宙

Anthropic新研究:用统计思维评估大模型

作者:AIGC开放社区
2025-01-10 10:30
目前,评估大模型的方法就是比在基准测试中的数值,在于突出SOTA结果,并未充分考虑统计显著性。 例如,在对不同模型进行评估时,若仅依据表面的得分高低判断优劣,而不考虑数据的不确定性和变异性,可能会得出不准确的结论。 所以,Anthropic提出了将严谨的统计思维引入大模型评估领域。

目前,评估大模型的方法就是比在基准测试中的数值,在于突出SOTA结果,并未充分考虑统计显著性。例如,在对不同模型进行评估时,若仅依据表面的得分高低判断优劣,而不考虑数据的不确定性和变异性,可能会得出不准确的结论。

所以,Anthropic提出了将严谨的统计思维引入大模型评估领域。通过构建全面的分析框架,能帮助研究人员量化评估结果的精确性,判断模型之间的差异是否具有统计显著性,而非仅仅依赖于表面的得分差异,进而为模型的选择和改进提供更可靠的依据。

图片

我们需要理解评估框架中的一个基本概念——超总体。在统计学中,总体是指研究对象的全体,而超总体则是一个更为宏观的概念,它包含了所有可能的问题

在大模型评估的背景下,这意味着不仅仅关注评估中出现的具体问题,而是将这些问题视为从一个更大的、无限的、未观察到的问题集合中随机抽取的样本。这种思维方式允许我们从更宏观的角度来分析评估数据,从而更准确地估计模型的性能。

在评估框架的理论基础中,每个问题得分被分解为均值部分和零均值随机部分。如果一个评估由n个独立抽取的问题组成,我们可以将第i个问题的得分表示为si,将其分解为均值部分xi和一个零均值随机部分ϵi,即si=xi+ϵi。这里的xi被称为条件均值,它代表了在给定问题i被选中的情况下的得分均值。

图片

而ϵi的方差,记作σ²i=Var(ϵi),被称为条件方差,它是在问题i被选中的情况下得分的方差。

在这个框架下,可以使用中心极限定理来估计均值的标准误差。中心极限定理是一个强大的统计学工具,它指出,无论原始数据的分布如何,只要样本量足够大,样本均值的分布将趋近于正态分布

因此,即使评估得分的分布未知,也可以利用中心极限定理来估计均值的标准误差,可以估计为SEC.L.T.=√[Var(s)/n]=√[(1/n)Σ(i=1ton-1)(si-¯s)²]/n,其中¯s是观察到的得分的平均值。

但评估中的问题并不总是独立的。例如,在阅读理解评估中,多个相关问题可能基于同一文本段落。这种情况下,问题的抽取是非独立的,中心极限定理的一个关键假设被违反,因此直接应用上述公式将导致不一致的标准误差。

为了解决这个问题,研究人员引入了聚类标准误差的概念。聚类标准误差是一种在社会科学中发展出来的技术,用于处理问题聚类中的依赖和相关结构。

图片

在评估框架的理论基础中,还有一个重要的概念是方差的降低。方差是衡量得分分布离散程度的统计量,降低方差可以提高估计的精度。方差可以分解为两个部分:从超总体中选择问题的方差和所选问题的得分的均值条件方差。这种分解是加性的,遵循全方差定律。

为了展示这种统计学评估方法,研究人员设计了一个假设性的实验,比较了两个虚构模型“Galleon”和“Dreadnought”在三个非虚构评估上的表现:MATH(数学推理评估)、HumanEval(Python编程评估)和MGSM(多语言小学数学评估)。

在MATH评估中,Galleon的平均得分为65.5%,标准误差为0.7%;Dreadnought的平均得分为63.0%,标准误差为0.7%。

通过计算95%的置信区间,我们可以得出Galleon的真实得分在64.1%到66.9%之间,而Dreadnought的真实得分在62.3%到63.7%之间。这表明Galleon在MATH评估上的表现显著优于Dreadnought。

图片

在HumanEval评估中,Dreadnought的平均得分为87.7%,标准误差为2.1%;Galleon的平均得分为83.6%,标准误差为2.1%。通过计算95%的置信区间,我们可以得出Dreadnought的真实得分在83.6%到91.8%之间,而Galleon的真实得分在79.5%到87.7%之间。这表明Dreadnought在HumanEval评估上的表现显著优于Galleon。

在MGSM评估中,Dreadnought的平均得分为78.0%,标准误差为1.7%;Galleon的平均得分为75.3%,标准误差为1.7%。通过计算95%的置信区间,我们可以得出Dreadnought的真实得分在74.6%到81.4%之间,而Galleon的真实得分在71.9%到78.7%之间。这表明Dreadnought在MGSM评估上的表现也优于Galleon。

通过这些案例分析,我们可以看到,计算标准误差和置信区间不仅能够提供更丰富的信息,还能帮助研究者更准确地评估模型在不同任务上的表现。

相关标签:

相关资讯

Meta 推出“自学评估器”:无需人工注释改善评估,性能超 GPT-4 等常用 AI 大语言模型评审

Meta 公司为了缓解自然语言处理(NLP)技术依赖人类注释评估 AI 模型的问题,最新推出了“自学评估器”(Self-Taught Evaluator),利用合成数据训练 AI。NPU 技术挑战NPU 技术的发展,推动大型语言模型(LLMs)高精度地执行复杂的语言相关任务,实现更自然的人机交互。不过当前 NPU 技术面临的一个重要挑战,就是评估模型严重依赖人工注释。人工生成的数据对于训练和验证模型至关重要,但收集这些数据既费钱又费时。而且随着模型的改进,以前收集的注释可能需要更新,从而降低了它们在评估新模型时的效
8/7/2024 3:56:11 PM
故渊

OpenAI 发布 GPT-4o 模型卡:概述 AI 安全和风险缓解措施

OpenAI 公司于 8 月 8 日发布报告,概述了 GPT-4o 模型的系统卡(System Card),介绍了包括外部红队(模拟敌人攻击)、准备框架(Preparedness Framework)在内的诸多细节。OpenAI 表示 GPT-4o 模型的核心就是准备框架(Preparedness Framework),这是一种评估和降低人工智能系统相关风险的系统方法。AI在线从报道中获悉,该框架主要用于识别网络安全、生物威胁、说服和模型自主性等领域的潜在危险。除了针对 GPT-4 和 GPT-4V 进行的安全评估
8/10/2024 11:54:54 AM
故渊

基于LLaMA却改张量名,李开复公司大模型开源行为引争议,官方回应来了

机器之心报道机器之心编辑部有研究者发现,李开复「零一万物」公司的 Yi-34B 模型基本上采用了 LLaMA 的架构,只是重命名了两个张量。对此,「零一万物」给出了官方回应。前段时间,开源大模型领域迎来了一个新的模型 —— 上下文窗口大小突破 200k,能一次处理 40 万汉字的「Yi」。这个大模型由创新工场董事长兼 CE0 李开复创立的大模型公司「零一万物」构建,包括了 Yi-6B 和 Yi-34B 两个版本。根据 Hugging Face 英文开源社区平台和 C-Eval 中文评测榜单,Yi-34B 推出时取得
11/14/2023 5:15:00 PM
机器之心
  • 1