复刻 DeepSeek-R1 的长念念维链推理,大模子强化学习新范式 RLIF 成热点话题。
UC Berkeley 团队共吞并作 Xuandong Zhao 把这项效果称为:
大模子无需战役确凿谜底,仅通过优化我方的信心,就能学会复杂推理。
具体来说,新步履十足不需要外部奖励信号或标注数据,只需使用模子本身的置信进程算作内在奖励信号。 与使用外部奖励信号 GRPO 比拟,新步履在数学任务上不需要圭臬谜底也能晋升基础模子性能,在代码任务上证实得更好。 险些吞并时辰,另外一篇论文《RENT: Reinforcement Learning via Entropy Minimization》也考据了一样的论断。 作家示意两者的主要区别在于使用 KL 散度和最小化熵筹备自信进程。 Dropbox 工程副总裁看后示意:Confidence is all you need。 "自信"开动的强化学习 经久以来,考验大模子主要依赖两种面貌: 要么需要浩繁东说念主工标注(如 ChatGPT 的 RLHF),要么需要可考据的圭臬谜底(如 DeepSeek 的 RLVR)。 前者老本不菲且可能引入偏见,后者则局限于数学、编程等有明确谜底的领域。 那么当 AI 才气逐步接近以至卓越东说念主类时,能否让模子仅凭本身产生的内在信号,解脱对外部监督的依赖? 针对这个问题,UC Berkeley 团队提议新考验步履 Intuitor,策动模子瞻望漫衍与均匀漫衍之间的 KL 散度算作"自信进程"。 相称于东说念主类作念题时,若是对谜底有把执念念路也会更明显,当自信不及的时候时常需要从头念念考。 通过优化这个内在信号,INTUITOR 饱读吹模子生成它我方"更有把执"的回话,也能促使模子生成更结构化的推理流程。 在实验中,1.5B 和 3B 的小模子也显现出与 DeepSeek-R1 雷同的长念念维链推理行动。 论文还指出,内在奖励信号还赢得一个很是的平正:从机制上裁汰了"奖励黑客"的风险。 传统外部奖励信号的强化学习容易被"钻空子",如模子可能生谚语法正确但逻辑猖獗的代码来匹配测试用例,或在数学题中平直背谜底而非推理。 在 INTUITOR 中,团队发现若是使用离线学习,在考验约 100 步的时候模子也学会了舞弊:在回话中附加一个照旧惩办的浅显问题来提高自信度分数。 但使用在线学习就不错幸免这个问题,评估圭臬跟着模子才气哦沿途进化,舞弊计谋变得无效。 实验收尾:不仅会作念题,还会举一反三 团队开头实证研究了 INTUITOR 框架对 LLMs 数学推理才气的晋升。 实验中式Qwen2.5-1.5B/3B算作基础模子,使用自我笃定度算作唯独的奖励信号,并将其分别置于INTUITOR和两个基线步履(GRPO、GRPO-PV)在 MATH 数据集的预考验中。 使用对话教导,每次处理 128 说念题目并各生成 7 个候选惩办决策,KL 刑事遭殃悉数诞生为 0.005。 在数学推理、代码生成、指示罢黜的基准测试中进行性能评估,收尾如图所示: 实验标明,在通过 INTUITOR 进行微调后,Qwen2.5-1.5B 从领先只会输出重迭的无道理履行且对话任务得分均低于 10%,改换为无效输出大幅减少、反映长度灵验增多。 在结构化推理才气上,团队还发现INTUITOR 早期学习速率更快,如 Qwen2.5-3B 在 GSM8K 基准测试上 INTUITOR(0.811)长久优于 GRPO(0.758)。 此外,INTUITOR 在多任务泛化上也证实优秀,举例当 Qwen2.5-3B 在代码生成任务上,天然相对滞后但不时增长,最终性能比 GRPO 高8%,相对晋升65%。 同期团队还不雅察到,在进行长链推理时,INTUITOR 模子在生成齐全代码前,皆会添加天然说话推理 (如"为惩办 X 问题,需先推行 Y 法子"),据预见也许这等于 INTUITOR 能够在测试中长久证实出色的原因之一。 它的演进流程省略不错面貌为三个阶段: 模子学会生成代码,完满准确率晋升和无效反映减少。 进行代码前推理以促进自我知晓。 缓缓细化生成带详备推理的灵验代码。 为了评估自我笃定度算作奖励的鲁棒性,研究东说念主员还将离线自我笃定度(来自固定基础模子的奖励)与在线自我笃定度(来自不断进化的计谋模子的奖励)进行了比较。 实验发现离线奖励会在 100 步后通过添加无关履行导致准确率崩溃,而在线奖励与计谋协同演化,可灵验凝视破解。 为进一步评估自我笃定度算作奖励信号的质地,研究东说念主员还分析了模子在 MATH500 反映中生成的自我笃定度分数漫衍。 值得提防的是,INTUITOR 模子对正确谜底的 self-certainty 权贵更高,而 GRPO 虽晋升了模子自评才气,但分辨度彰着低于 INTUITOR。 由于受策动资源限度,实验只在相对较小的无监督语料库上进行考验,将来可在更大范畴的基础模子和更万般化果然凿全国数据集上进一步研究 INTUITOR 的上风。 团队先容 本项研究来自 UC Berkeley 的 Sergey Levine、宋晓东团队,作家一共有五位,分别是第一作家博士后研究员 Xuandong Zhao、共吞并作本科生 Zhewei Kang、来自耶鲁大学的 Aosong Feng,以及 Sergey Levine 和 Dawn Song。 2019 年,Xuandong Zhao 从浙江大学毕业后,就参加了加州大学圣塔芭芭拉分校攻读策动机科学博士学位,时候还曾在阿里巴巴、Microsoft 和 Google 等公司实习。 自 2024 年他参加 UC Berkeley 后,除本次的新效果外,于今一共还发表过十多篇论文,并先后被 ICLR 2025、ICML 2025 等采纳。 另外皮本年 2 月,Xuandong Zhao 和 Zhewei Kang 还合营发表了一篇论文,面貌了基于自我笃定性的 LLMs 推理才气晋升新计谋 Best-of-N,不错看作是本篇论文的一次先验尝试。 论文流畅:https://arxiv.org/abs/2505.19590 代码流畅:https://github.com/sunblaze-ucb/Intuitor 参考流畅: [ 1 ] https://x.com/joshclemm/status/1927400772817285264 [ 2 ] https://x.com/xuandongzhao/status/1927270931874910259 [ 3 ] https://x.com/xuandongzhao/status/192778163679341780 [ 4 ] https://arxiv.org/abs/2502.18581 — 完 — � � 量子位 AI 主题筹备正在征聚会!谅解参与专题365 行 AI 落地决策,一千零一个 AI 行使,或与咱们共享你在寻找的 AI 产物,或发现的AI 新动向。 � � 也谅解你加入量子位逐日 AI 疏浚群,沿途来畅聊 AI 吧~ 一键和顺 � � 点亮星标 科技前沿进展逐日见 一键三连「点赞」「转发」「戒备心」 谅解在评述区留住你的意见! m