AIGC宇宙 AIGC宇宙

Meta 推出“自学评估器”:无需人工注释改善评估,性能超 GPT-4 等常用 AI 大语言模型评审

作者:故渊
2024-08-07 03:56
Meta 公司为了缓解自然语言处理(NLP)技术依赖人类注释评估 AI 模型的问题,最新推出了“自学评估器”(Self-Taught Evaluator),利用合成数据训练 AI。NPU 技术挑战NPU 技术的发展,推动大型语言模型(LLMs)高精度地执行复杂的语言相关任务,实现更自然的人机交互。不过当前 NPU 技术面临的一个重要挑战,就是评估模型严重依赖人工注释。人工生成的数据对于训练和验证模型至关重要,但收集这些数据既费钱又费时。而且随着模型的改进,以前收集的注释可能需要更新,从而降低了它们在评估新模型时的效

Meta 公司为了缓解自然语言处理(NLP)技术依赖人类注释评估 AI 模型的问题,最新推出了“自学评估器”(Self-Taught Evaluator),利用合成数据训练 AI

NPU 技术挑战

NPU 技术的发展,推动大型语言模型(LLMs)高精度地执行复杂的语言相关任务,实现更自然的人机交互。

不过当前 NPU 技术面临的一个重要挑战,就是评估模型严重依赖人工注释。

人工生成的数据对于训练和验证模型至关重要,但收集这些数据既费钱又费时。而且随着模型的改进,以前收集的注释可能需要更新,从而降低了它们在评估新模型时的效用。

目前的模型评估方法通常涉及收集大量人类对模型响应的偏好判断。这些方法包括在有参考答案的任务中使用自动度量,或使用直接输出分数的分类器。

这些方法都有局限性,尤其是在创意写作或编码等复杂场景下,可能存在多个有效回答,导致了人类判断的高差异问题和高成本。

自学评估器

Meta FAIR 团队推出了名为“自学评估器”的全新方式,不需要人工注释,而是使用合成数据进行训练。

这一过程从种子模型开始,种子模型会生成对比鲜明的合成偏好对。然后,模型对这些偏好对进行评估并不断改进,在随后的迭代中利用其判断来提高性能。这种方法充分利用了模型生成和评估数据的能力,大大减少了对人工注释的依赖。

Meta 推出“自学评估器”:无需人工注释改善评估,性能超 GPT-4 等常用 AI 大语言模型评审

AI在线附上关键步骤如下:

1. 使用种子 LLM 为给定指令生成基线响应。

2. 创建指令的修改版本,促使 LLM 生成质量低于原始响应的新响应。

这些配对回答构成了训练数据的基础,“自学评估器”作为 LLM-as-a-Judge,为这些配对生成推理轨迹和判断。

通过反复该过程,模型通过自我生成和自我评估的数据不断提高其判断的准确性,从而有效地形成自我完善的循环。

成果

Meta FAIR 团队在 Llama-3-70B-Instruct 模型上测试“自学评估器”,在 RewardBench 基准测试中将准确率从 75.4 提高到了 88.7,达到或超过了使用人类注释训练的模型的性能,性能超过 GPT-4 等常用大语言模型评审(LLM Judges)。

Meta 推出“自学评估器”:无需人工注释改善评估,性能超 GPT-4 等常用 AI 大语言模型评审

Meta 推出“自学评估器”:无需人工注释改善评估,性能超 GPT-4 等常用 AI 大语言模型评审

这一重大改进证明了合成数据在加强模型评估方面的有效性。此外,研究人员还进行了多次迭代,进一步完善了模型的功能。

参考

Meta presents Self-Taught Evaluators: A New AI Approach that Aims to Improve Evaluators without Human Annotations and Outperforms Commonly Used LLM Judges Such as GPT-4

Self-Taught Evaluators

相关标签:

相关资讯

优于人类专家,GPT-4 准确注释单细胞类型,成本低且稳健

编辑 | 萝卜皮GPT-4 是一种专为语音理解和生成而设计的大型语言模型。哥伦比亚大学梅尔曼公共卫生学院(Columbia University Mailman School of Public Health)的 Wenpin Hou 和杜克大学医学院(Duke University School of Medicine)的 Zhicheng Ji 证明,大语言模型 GPT-4 可以在单细胞 RNA 测序分析中使用标记基因信息准确注释细胞类型。「注释单个细胞的细胞类型的过程通常非常耗时,需要人类专家比较跨细胞簇的基
3/28/2024 6:44:00 PM
ScienceAI

OpenAI 发布 GPT-4o 模型卡:概述 AI 安全和风险缓解措施

OpenAI 公司于 8 月 8 日发布报告,概述了 GPT-4o 模型的系统卡(System Card),介绍了包括外部红队(模拟敌人攻击)、准备框架(Preparedness Framework)在内的诸多细节。OpenAI 表示 GPT-4o 模型的核心就是准备框架(Preparedness Framework),这是一种评估和降低人工智能系统相关风险的系统方法。AI在线从报道中获悉,该框架主要用于识别网络安全、生物威胁、说服和模型自主性等领域的潜在危险。除了针对 GPT-4 和 GPT-4V 进行的安全评估
8/10/2024 11:54:54 AM
故渊

Anthropic新研究:用统计思维评估大模型

目前,评估大模型的方法就是比在基准测试中的数值,在于突出SOTA结果,并未充分考虑统计显著性。 例如,在对不同模型进行评估时,若仅依据表面的得分高低判断优劣,而不考虑数据的不确定性和变异性,可能会得出不准确的结论。 所以,Anthropic提出了将严谨的统计思维引入大模型评估领域。
1/10/2025 10:30:00 AM
AIGC开放社区
  • 1