免费配资开户RLMT 使用在线强化学习算法来更新模型参数
结合 RLHF+RLVR,8B 小模型就能超越 GPT-4o、媲美 Claude-3.7-Sonnet。
陈丹琦新作来了。
他们提出了一个结合 RLHF 和 RLVR 优点的方法,RLMT(Reinforcement Learning with Model-rewarded Thinking,基于模型奖励思维的强化学习)。
它要求模型在回答之前生成 CoT,然后使用人类偏好训练的奖励模型来评价输出。
支持在基础模型上直接使用,甚至不需要 SFT,可以大幅节省后训练成本。
网友觉得,这种方法为通用强化学习设定了一个新基线:谁制定了偏好的定义,谁就是后训练时代的"新得分手"。
让小模型轻松超越大模型
RLVR(通过可验证奖励的强化学习)能够在数学、代码等任务中大幅提升模型的推理能力,但是在更开放的任务(比如写大纲、制定饮食计划)上的泛化能力有限,这些任务是人类日常推理的常见场景。
本文提出的 RLMT 就是证明,RLVR 范式在可验证领域之外同样有效。
它要求模型在生成回答之前输出长思维链(CoT),并利用基于人类偏好的奖励模型(与 RLHF 中相同)进行在线强化学习。
比如对于非数学代码问题,它依旧可以分步骤拆解:回顾→综合→关键主题→核心准则→举例→结构化回答。
比如在 Wildbench(一个基于真实任务建立的基准)上,优化后的 Qwen2.5-7B 大幅领先其他模型。
它的训练流程如下:
给定一个用户提示 x,模型先生成一个推理轨迹 z,在推理基础上生成最终回答 y,奖励模型 r ( x,y ) 对结果进行打分。
数学上,RLMT 优化的目标是:
然后使用人类偏好奖励模型(论文中用的是 Skywork-v2),对生成的回答在流畅性、相关性、逻辑性、创意等维度给出分数。
在优化算法方面,RLMT 使用在线强化学习算法来更新模型参数,主要实验了 DPO、PPO、GRPO,结果表明 GRPO 效果最好。但即使使用 DPO/PPO,RLMT 也始终优于 RLHF。
训练数据来自于真实用户对话,避免像 RLVR 那样过度偏向数学 / 代码。
训练方式有两种:
Warm-start(带 SFT 预热):先使用少量 SFT 数据教会模型 CoT 格式,再用 RLMT 优化;
Zero(无 SFT 直接训练):在基础模型上直接加入固定前缀提示,让它学会"思考 + 回答"结构,通过 RLMT 强化最终也能超过 instruct 模型表现。
最终通过 RLMT,模型在推理风格上更像人类思考:它自然学会了分组、约束分析、跨部分联系、迭代修正等,从而带来更高质量的对话和写作效果。
研究团队主要测试了 Llama3.1-8B 和 Qwen2.5-7B 两个模型的表现效果。
结果显示小模型经过 RLMT 训练可超越大模型,大幅简化后训练成本。
陈丹琦团队出品
本项研究一共三位作者:陈丹琦、Adithya Bhaskar、叶曦。
陈丹琦,普林斯顿大学计算机副教授,普林斯顿 NLP 小组负责人。最近加盟了 Thinking Machines Lab。
她本科就读于清华大学"姚班",2018 年在斯坦福大学获得计算机科学博士学位,导师为 Christopher Manning。曾获得诺奖风向标之称的斯隆奖。
她的研究方向主要是自然语言理解、知识表示与推理、问答系统、信息抽取、对话代理等。
研究一作为 Adithya Bhaskar 和叶曦。
Adithya Bhaskar 现在是普林斯顿大学博三学生,师从陈丹琦。
叶曦是普林斯顿语言与智能研究所博士后。
本科毕业于清华大学,在奥斯汀大学获得博士学位。主要研究方向是 NLP,重点在提高大语言模型的可解释性和推理能力。
论文地址:
https://arxiv.org/abs/2509.20357
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
� � 量子位智库 AI100 季度榜单征集中!征集截至 10 月 10 日。欢迎提名 2025 年 Q3「AI 100」双榜单产品~
一键关注 � � 点亮星标
科技前沿进展每日见
炒股票手机软件,怎么开通股票杠杆交易,低息配资公司提示:文章来自网络,不代表本站观点。
- 上一篇:股票杠杆平台排行还是无声的碰撞?答案被尘封在无数心痛的猜想里
- 下一篇:没有了