AIGC宇宙 AIGC宇宙

从反馈中学习:强化学习如何提升百晓生问答精准度

第一部分:引言在人工智能技术飞速发展的今天,智能问答系统已成为连接信息与用户的重要桥梁,它们不仅重塑着人机交互方式,更在提升服务效率、优化知识获取路径等方面展现出巨大潜力。 在此背景下,"百晓生"作为一款基于RAG(检索增强生成)与外挂知识库的大型语言模型(LLM)驱动的问答产品,专注于为上门工程师提供精准的质检知识答疑服务。 经过一年的持续迭代与优化,该产品已从最初的10%小流量实验,逐步开放至全国范围,目前每日稳定为超过3000名工程师提供支持,连续多周问答准确率保持在90% 。

第一部分:引言

在人工智能技术飞速发展的今天,智能问答系统已成为连接信息与用户的重要桥梁,它们不仅重塑着人机交互方式,更在提升服务效率、优化知识获取路径等方面展现出巨大潜力。在此背景下,"百晓生"作为一款基于RAG(检索增强生成)与外挂知识库的大型语言模型(LLM)驱动的问答产品,专注于为上门工程师提供精准的质检知识答疑服务。经过一年的持续迭代与优化,该产品已从最初的10%小流量实验,逐步开放至全国范围,目前每日稳定为超过3000名工程师提供支持,连续多周问答准确率保持在90%+。其技术架构也经历了显著演进,从初期的简单RAG问答,升级为集多轮对话管理、主动反向追问(以澄清模糊问题)和图文混排答案生成于一体的复杂智能体(Agent)系统。

然而,随着问答精准度的不断提升,系统优化的挑战也从明确的事实性错误转向答案生成的稳定性、对复杂质检知识的深入理解、问答速度提升(精简思考过程)等深层次优化。传统的优化方法在面对这些需要持续学习和策略决策的场景时,逐渐显现出瓶颈。与此同时,人工智能领域的一项技术正悄然改变着大模型的优化范式--强化学习(Reinforcement Learning, RL)。特别是基于人类反馈的强化学习(RLHF)和更前沿的基于可验证奖励的强化学习(RLVR),正在引导大模型从"生成看似正确的答案"向"生成确实正确的答案"飞跃。

因此,将强化学习技术深度融合到"百晓生"这类智能问答系统的优化过程中,代表着一条极具潜力的演进路径。它不仅能优化系统从海量信息中检索和生成答案的质量,更能让系统在持续的人机交互反馈循环中不断学习与调整,最终实现应答精准度与用户满意度的双重提升。本文将深入探讨强化学习如何针对百晓生问答系统中的答案生成的稳定性、对复杂质检知识的深入理解、问答速度提升(精简思考过程)等关键环节发挥作用。

第二部分:强化学习技术选型:PPO、DPO与GRPO概述

2.1 近端策略优化(PPO)

PPO全称Proximal Policy Optimization(近端策略优化),近端(Proximal)意味着这种优化方法会限制每次更新的幅度,从而保证了训练的稳定性。

从反馈中学习:强化学习如何提升百晓生问答精准度

2.2 直接偏好优化(DPO)

背景:DPO是一种离线且无奖励模型的偏好学习算法。它洞察到,对于基于Bradley-Terry模型的偏好概率,可以通过解析地推导出最优策略与奖励函数之间的关系,从而绕过显式学习奖励模型的步骤,直接利用偏好数据优化策略。

从反馈中学习:强化学习如何提升百晓生问答精准度

2.3 群体相对策略优化(GRPO)

背景:GRPO是针对PPO的一种改进方法,旨在减少对额外评估网络(Critic)的依赖,并通过群体内的相对比较来估计优势函数,以提升训练效率与稳定性。它特别适合处理离散奖励信号和大规模语言模型微调的场景。

从反馈中学习:强化学习如何提升百晓生问答精准度

2.4 强化学习技术总结

在大模型对齐(Alignment)技术中,PPO、DPO和GRPO是三种主流的优化算法,它们的目标都是让模型的输出更符合人类偏好,区别如下:

PPO(近端策略优化)的核心在于通过裁剪机制限制策略更新的幅度,确保训练稳定性。它采用Actor-Critic架构,其中Actor(策略网络)负责选择动作,Critic(评估网络)评估状态价值,并通过广义优势估计(GAE)计算优势函数来指导策略更新。这种设计使其在复杂环境中能有效平衡探索与利用,成为目前最流行的强化学习算法之一。

DPO(直接偏好优化)则完全绕开了复杂的奖励模型建模和强化学习流程。它直接利用人类标注的偏好数据(即一对“好答案”和“坏答案”),通过数学推导将奖励函数的优化转化为直接对策略模型的优化。这种方法大幅简化了训练流程,降低了计算成本,同时在大模型对齐任务中表现出优异的稳定性和效果。

GRPO(群体相对策略优化)的创新点在于利用“群体比较”的思想。对于每个问题,模型会生成一组多个答案,然后在这些答案内部进行相对评分和比较(例如,将每个答案的奖励与组内平均奖励进行比较),并以此作为策略优化的信号。这种方法避免了对评估网络(Critic)的依赖,使训练过程更轻量,特别适合计算资源受限或需要快速迭代的场景。

第三部分:百晓生系统强化微调实践

3.1 强化微调(Reinforcement Fine-Tuning, RFT)

对开源大模型进行领域适配时,监督微调(SFT)是普遍采用的方法。然而,若SFT数据质量不佳或训练轮次过多,模型容易陷入过拟合,具体表现为"复读机"式的重复生成,以及在新任务上表现骤降的灾难性遗忘问题,最终导致生成质量和实际业务指标下降。

为解决上述问题,一种结合监督学习与强化学习优势的迭代式训练范式------强化微调(Reinforcement Fine-Tuning, RFT)显示出巨大潜力。强化微调指的是:多阶段反复进行SFT+RL流程,例如,deepseek-R1反复进行了两阶段SFT+GRPO。RFT核心逻辑在于形成一种有效的互补:SFT负责利用高质量数据为模型打下坚实的基础行为模式,而强化学习(如GRPO)则在此基础上通过奖励信号引导模型进行探索和优化,学习更复杂的偏好和推理能力。

3.2 百晓生系统RFT实践

百晓生问答模型RFT训练,采用两阶段SFT+RL流程,其中RL过程采用GRPO算法。

3.2.1 百晓生系统简介

在转转上门回收服务中,工程师对电子产品进行准确估价是确认最终回收价格的核心环节。该流程主要分为设备检测与系统定价两步:工程师首先对设备的外观、功能等进行全面检测,随后在内部系统中根据检测结果勾选对应的状态选项;系统则依据这些选项信息,通过内置算法模型自动生成回收价格。因此,勾选的准确性直接决定了估价的公正性,也关系到用户与公司双方的利益。

为提升选项勾选的规范性与一致性,转转引入了百晓生系统。该系统基于RAG(检索增强生成)技术,为工程师提供实时的、标准化的勾选指引和业务答疑。例如,当工程师遇到"手机主板出现第三方标识"这一情况时,百晓生系统会明确提示应勾选【主板拆修】-【主板-有第三方标识】选项,并同时说明例外情形(如"友商标"等非拆修标识则无需勾选),从而有效减少因个人判断差异导致的误操作。

3.2.2 GRPO奖励函数设计与训练

GRPO训练过程,对同一个问题,生成N个候选答案。使用奖励函数对N个候选答案进行打分,奖励超过平均分的答案,惩罚低于平均分的答案。针对百晓生问答,设计了2个奖励函数。相似度奖励和重复惩罚。

相似度奖励:意在提升问答准确率,通过计算标准答案与大模型生成答案的相似度,奖励相似度高的答案。为提升长文本语义相似度效果,相似度奖励采用deepseek-V3进行评分。为保证训练速度,使用BERT对deepseek-V3评分进行蒸馏,训练中使用bert评分作为奖励。deepseek-V3评分prompt如下:

图片图片

重复惩罚奖励:重复惩罚意在解决复读机现象,对答案中的重复程度进行评分,重复程度使用embedding模型进行计算。

评分示例:

图片图片

completions是大模型生成答案,cross_encoder_similarity表示相似度奖励,anti_repetition_throught表示重复惩罚奖励,advantages综合(加权平均)奖励得分,为正数时,对答案进行奖励,提高其出现概率。

训练过程:

图片图片

kl是GRPO新训练模型与原始模型的KL散度,其作用是防止新模型偏离原始模型太远。限制kl散度,防止领域化训练的过程中,模型原有能力的灾难性遗忘现象;

CrossEncoderSimilarityORM是相似度奖励;

AntiRepetitionThoughtORM是重复惩罚奖励,重复越低,得分越高。

3.2.3 效果评估

在Qwen3-8B模型上实施强化微调(RFT)后,其在百晓生问答任务上的准确率达到94.05%,与参数量达200B(2000亿)的豆包1.6-thinking-pro模型效果相当。 使用相同训练数据,RFT相比监督微调(SFT)在准确率上进一步提升6%,显示出强化学习机制在任务对齐上的有效性。

在生成质量方面,RFT显著改善了"重复生成"问题,相关现象发生率降至0%。由于输出更简洁,模型平均生成时长缩短至约10秒,远低于豆包1.6的40秒,体现出更好的推理效率。

此外,RFT也显著提升了生成答案的稳定性。对同一问题多次生成答案进行一致性评估,其答案间相关系数达到0.85,高于豆包1.6的0.76,说明RFT模型输出更可控、更可靠。

第四部分:总结与展望

RFT(强化微调)作为一种新兴的大模型训练范式,已在多项权威的推理能力、数学及代码生成榜单中展现出显著优势。我们通过近两个月的实验验证,证实RFT技术在百晓生系统中同样能够有效提升业务关键指标。相较于传统方法,RFT训练流程能够更深入地挖掘数据中的潜在规律,其核心优势在于能够有效抑制微调过程中常见的负面效应,例如生成内容的重复性("复读机现象")以及模型对已习得通用知识的灾难性遗忘问题。

面向未来,RFT技术在百晓生系统乃至更广阔的应用场景中,仍有丰富的探索方向:

其一,可设计更精细、更贴合业务目标的奖励函数,以更精准地引导模型优化方向;

其二,可积极探索将RFT应用于多模态任务,例如基于图片的质检问答等复杂场景,以拓展模型能力的边界。

关于作者:车天博、李俊波、李莹莹,转转算法工程师,主要负责客服问答、百晓生质检问答相关项目。

相关资讯

微调已死,强化微调万岁

编辑 | 言征 出品 | 51CTO技术栈(微信号:blog51cto)OpenAI第二天的直播,奥特曼没有出镜,几位OpenAI的研究员带了一场AI模型的定制魔法秀! “这不是标准的微调......它利用强化学习算法,将我们从高级高中水平带到专家级博士水平。 ”1.12个样本,就能让定制o1超过满血o1标准的微调已经过时了,这次 OpenAI 打破了 AI 定制的界限。
12/10/2024 9:07:17 AM
言征

OpenAI o4-mini携强化微调正式上线,AI专业能力迈向专家级

5月8日,OpenAI o4-mini携强化微调正式上线。 这两项技术的结合彻底改变了AI专业化的成本结构和技术门槛,让企业能以少量训练数据将通用AI迅速转变为特定领域的专家系统。 从通用智能到专家级AI的跨越式飞跃强化微调技术作为此次发布的核心亮点,标志着OpenAI在定制化模型领域取得重大突破。
5/9/2025 5:00:51 PM
AI在线

大模型RL不止数学代码!7B奖励模型搞定医学法律经济全学科, 不用思维链也能做题

一个7B奖励模型搞定全学科,大模型强化学习不止数学和代码。 o1/r1的强化学习很强,但主要探索了数学和代码领域,因为这两个领域的数据结构化程度高,奖励函数/奖励模型比较好设计。 那么,想提升大模型在其他学科领域的能力该怎么办?
4/3/2025 9:23:08 AM
量子位
  • 1