AIGC宇宙 AIGC宇宙

DeepSeek 等模型训练所依赖的合成数据,BARE 提出了新思路

大家好,我是肆〇柒,在AI圈,大型语言模型(LLM)的训练对高质量、多样化数据的需求日益增长。 从去年到现在,一些模型在发布的时候,会有论文或者技术报告,里面多多少少都会提及合成数据,并且在多数情况下,合成数据的效果并不差。 比如,我所看到的报告中,使用了合成数据的模型如下盘点(应该会有遗漏,它并不完整)。

DeepSeek 等模型训练所依赖的合成数据,BARE 提出了新思路

大家好,我是肆〇柒,在AI圈,大型语言模型(LLM)的训练对高质量、多样化数据的需求日益增长。从去年到现在,一些模型在发布的时候,会有论文或者技术报告,里面多多少少都会提及合成数据,并且在多数情况下,合成数据的效果并不差。比如,我所看到的报告中,使用了合成数据的模型如下盘点(应该会有遗漏,它并不完整)。

  • Phi-4Phi-4采用了合成数据生成方法,包括种子数据的精心策划、多步骤提示工作流程、自我修正机制、指令反转技术和多代理提示与自我反思等。
  • Alpaca、Vicuna 和 WizardLM通过利用 LLM 生成指令遵循数据,然后对较弱的模型进行指令调优。例如,Alpaca使用GPT-3.5生成指令-响应对,然后微调Llama模型。
  • Qwen2 和 Nemotron-4Nemotron-4在对齐阶段利用奖励模型产生的合成数据占比达到了98%,而Qwen2则在模型训练中使用了合成数据来提升性能。
  • GPT-4GPT-4在 post train 阶段广泛使用了合成数据,以增强模型的训练。
  • Llama 3通过让 LLM 对自己生成的回复打分,并根据打分形成新的训练数据,再继续训练模型。
  • Stable Diffusion在一篇论文中,研究人员使用Stable Diffusion v1.5生成与真实数据集大小相同的合成数据,并结合最大均值差异(MMD)分布匹配损失和视觉引导策略进行训练。
  • DeepSeek在训练的多环节采用合成数据,进行模型训练。并且还是用蒸馏技术,合成高质量数据,实现推理能力从大模型迁移到小模型。

以上,可以看到,越来越多的模型训练采用了合成数据。所以,人类“肉身”生成的数据其实是有限的,这促使研究人员和开发者转向合成数据,以满足模型训练的需求。BARE(Base-Refine)方法应运而生,通过结合基础模型(Base Models)和指令微调模型(Instruction-Tuned Models)的优势,为合成数据生成提供了新的思路。

下面,我们来看一下这篇论文的要点。

背景与动机

随着大型语言模型的不断发展,模型的规模和能力都在迅速增长。这导致对高质量、多样化训练数据的需求超过了人类生成数据的能力,因此合成数据的使用变得尤为重要。合成数据不仅在低数据领域中发挥着重要作用,还在各种任务中展现出巨大潜力,如数学问题、代码生成、功能调用和一般推理等。

挑战与解决方案

尽管指令微调模型在复杂任务中表现出色,能够生成高质量的内容,但它们在生成多样化输出方面存在挑战。这主要是因为这些模型在后训练过程中容易出现模式崩溃(Mode Collapse),即无法生成多样化的输出。相比之下,基础模型虽然在指令遵循能力上较弱,但能够生成更具多样性的输出。

下图是,基础模型与指令微调模型生成的小学数学问题的成对嵌入相似度直方图

图片

从上图可以看出,基础模型生成的内容(蓝色)在成对嵌入相似度上分布更广,表明其生成的内容更具多样性,而指令微调模型生成的内容(橙色)则相似度更高,多样性较低。

为了解决这一问题,研究人员提出了 BARE 方法。该方法通过两阶段过程,结合基础模型的多样性和指令微调模型的质量,生成高质量且多样化的合成数据。具体来说,BARE 首先利用基础模型生成多样化的初始数据集,然后通过指令微调模型对每个数据项进行精细化调整,以提高数据质量。

BARE 方法

多样性与质量的结合

BARE 方法的核心在于将基础模型的多样性和指令微调模型的质量结合起来。基础模型在生成数据时不受后训练偏差的限制,能够更好地代表现实世界数据的多样性。而指令微调模型则在生成高质量数据方面表现出色,能够生成更符合人类语言习惯的内容。

不同生成方法在 GSM8K 上的准确率

图片

从上图可以看出,使用 BARE 方法生成的数据进行微调后,模型的准确率显著提高,超过了仅使用基础模型或指令微调模型生成的数据。

两阶段生成过程

  1. 基础模型生成阶段:利用基础模型生成多样化的初始数据集。这一阶段只需提供少量的示例(few-shot examples)和基本的 prompt,以确保生成数据的格式正确。也就是,基础模型会根据给定的 prompt 生成一系列多样化的输出。这些输出可能在质量上参差不齐,但它们的多样性为后续的精细化调整提供了丰富的素材。例如,在生成小学数学问题时,基础模型会根据给定的示例生成类似的问题和答案。
  2. 指令微调模型精细化阶段:对基础模型生成的每个数据项进行精细化调整。指令微调模型根据具体的准则(如真实性、正确性)对数据进行优化,以提高数据质量。也就是,指令微调模型会对基础模型生成的每个数据项进行逐一调整,确保其符合预期的质量标准。例如,在生成数学问题时,指令微调模型会检查问题的逻辑性和答案的正确性,并进行必要的修正。

实验结果

研究人员在多个领域对 BARE 方法进行了评估,包括数学问题(GSM8K)、代码生成(LiveCodeBench)、问答任务(HotpotQA 和 PubMedQA)等。结果显示,BARE 方法在生成多样化且高质量数据方面表现优异,显著提升了下游任务的性能。

数学问题(GSM8K)

在 GSM8K 数据集上,BARE 方法生成的数据显著提高了模型的准确率。具体来说,使用 BARE 生成的数据进行微调后,模型的准确率从 22.4% 提升至 29.8%。而使用 GPT-4o 作为精细化模型时,准确率更是达到了 35.8%。

Enron 垃圾邮件生成的成对嵌入余弦相似度分布

图片

从上图可以看出,基础模型生成的垃圾邮件内容在成对嵌入相似度上分布更广,表明其生成的内容更具多样性。这有助于模型在训练过程中更好地泛化,提高对不同类型的垃圾邮件的识别能力。

代码生成(LiveCodeBench)

在 LiveCodeBench 的测试输出预测任务中,BARE 方法生成的数据使模型的准确率达到了 28.1%,与当前顶级模型的性能相当。这表明 BARE 方法在代码生成领域具有巨大的潜力。

20 Newsgroups 数据集的生成主题覆盖情况

图片

从上图可以看出,基础模型在生成 20 Newsgroups 数据集时,覆盖了更多的主题,表明其生成的内容更具多样性。这有助于模型在训练过程中更好地理解不同主题的内容,提高分类的准确性。

问答任务(HotpotQA 和 PubMedQA)

在 HotpotQA 和 PubMedQA 数据集上,BARE 方法生成的数据也显著提升了模型的性能。BARE 方法在这些任务上的表现优于直接使用指令微调模型生成的数据。

总结

BARE 方法为合成数据生成提供了一种新的思路,未来还有许多值得探索的方向。例如,可以通过进一步优化精细化模型,或引入更多阶段的生成过程,来进一步提升数据的多样性和质量。此外,BARE 方法还可以应用于生成合成评估集,为低数据领域提供更多的支持。

BARE 方法通过结合基础模型的多样性和指令微调模型的质量,为合成数据生成提供了一种有效的解决方案。实验结果表明,BARE 方法在多个领域中显著提升了下游任务的性能,展示了其在实际应用中的巨大潜力。

看过本文,你有什么看法?欢迎在评论区留言,或加入“觉察流”社群与社区小伙伴一起学习、讨论。加入方法,私信回复“入群”“加群”即可。

参考资料

  • BARE: Combining Base and Instruction-Tuned Language Models for Better Synthetic Data Generation

     https://arxiv.org/html/2502.01697v2

  • BARE github Repo

     https://github.com/pgasawa/BARE

相关资讯

DeepSeek-V3:硬件与模型的完美统协,奏响 AI 高效新乐章

大家好,我是肆〇柒。 DeepSeek-V3 曾经一度备受全球瞩目,从 V3 发布至今,这一开源模型已经在众多企业场景中成功落地。 然而,在落地过程中,由于其复杂的工程细节,相信许多团队也遇到了不少挑战。
5/28/2025 1:20:00 AM
肆零柒

DeepSeek称遭到大规模恶意攻击,注册或受影响

DeepSeek发布公告称其线上服务近期遭受了大规模恶意攻击,导致注册过程可能变得繁忙。 DeepSeek提醒用户,如果遇到注册困难,可以稍等后重试。 已注册用户可以正常登录,不受影响。
1/28/2025 10:37:00 AM
AI在线

“腾讯元宝电脑版”正式发布:混元大模型 / DeepSeek 双模切换,支持 AI 搜索、总结、写作等核心能力

腾讯元宝电脑版正式上线,支持Windows和macOS系统,集成了混元大模型和DeepSeek大模型,提供AI搜索、总结、写作等核心功能。此外,还能解析多种格式文档,并融入腾讯文档、电脑管家等生态产品,提升工作效率。#腾讯元宝##AI助手#
3/1/2025 12:39:46 PM
漾仔
  • 1