在人工智能领域,推理能力的提升一直是研究者们不懈追求的目标。近年来,随着大型语言模型(llm)的飞速发展,其在自然语言处理、知识问答等方面的应用日益广泛。
然而,在复杂推理任务上,llm的表现仍然存在一定的局限性。为了突破这一瓶颈,openai推出了o1模型,这一模型在推理任务上的表现甚至超过了平均人类水平,引发了业界的广泛关注。
为了深入探究o1背后的技术秘密,伦敦大学学院(ucl)、上海交通大学、利物浦大学、香港科技大学(广州)以及西湖大学携手合作,共同开源了首个类o1全链条训练框架——openr。
openr是一个开源代码库,旨在帮助用户快速实现构建自己的复杂推断模型。openr不仅集成了过程奖励模型(prm)训练、强化学习以及多种搜索框架,还致力于增强大型语言模型的复杂推理能力。
在openr框架中,数据获取、强化学习训练(包括在线和离线训练)以及非自回归解码都被集成到了一个统一的平台中。这一设计使得用户能够更加方便地进行模型训练和推理任务的优化。
受到openai的o1模型成功的启发,openr采用了一种基于模型的方法,超越了传统的自回归方法,从而在推理任务上取得了显著的改进。
在openr框架中,过程奖励模型(prm)在两个关键方面增强了llm的策略。首先,在训练期间,prm通过策略优化技术(如策略迭代)改进llm策略。
这一过程使得llm能够更好地理解和执行复杂的推理任务。其次,在解码阶段,prm引导llm的搜索过程,使推理朝着更有效的结果发展。这种引导不仅提高了推理的准确性,还显著提升了推理的效率。
值得注意的是,llm策略还可以帮助识别缺失的中间推理步骤。这些缺失的步骤反过来又可以进一步训练和改进prm。
这种迭代的互动使得llm和prm能够持续地释放各自的潜力以改进推理。这种协同进化的机制是openr框架的一大亮点,也是其在复杂推理任务上取得显著成效的关键所在。
在使用llm进行推理时,openr不仅仅依赖最终答案的反馈,而是使用更详细的反馈方式逐步收集和标注数据。
这种详细的反馈方式可以在问题解决的过程中识别出具体的错误位置并给出反馈,从而帮助模型更好地学习和改进。这种数据增强的方法不仅提高了模型的泛化能力,还使得模型在面临新的推理任务时能够更快地适应和解决问题。
为了进一步增强数据,openr引入了一个新的数据集——math-aps。这一数据集基于math数据集,并使用omegaprm等自动化方法来生成样本。
通过这种方法,openr减少了对人工标注的依赖,使得数据收集更加高效和便捷。自动化方法如omegaprm、math-shepherd和mips可以高效地收集高质量的过程监督数据,进一步提升了模型的训练效果。
在openr框架中,过程奖励模型(prm)的主要目的是判断凯发国际娱乐官的解决方案的步骤是否在正确的轨道上。为了实现这一目标,prm会输出一个0到1之间的分数,作为当前解决过程的正确性指标。
具体来说,给定一个问题及其解决步骤序列,prm会为每一步计算出一个分数,这可以视为一个二元分类任务:是否正确。
为了在llm上训练prm,openr采用了监督微调的方法。在训练过程中,正确或错误的判定作为分类标签,llm被用来预测每一步的后续标记。通过这种方式,prm能够学习到如何判断推理步骤的正确性,并在后续的推理任务中提供有效的引导。
为了训练一个名为math-psa的prm,openr使用了数据集如prm800k以及自己生成的math-aps数据集。这些数据集由问题、过程和标签三个部分组成。
在训练过程中,模型会在每个步骤标记之后预测正或负标签。输入的拼接格式包含了问题和各个步骤之间的标记符。标签仅分配在步骤标记符的位置,并在计算损失时忽略其他位置。这种方式确保模型训练时主要关注输入序列,而不会被步骤标记符干扰,从而更好地识别和分类正确性。
在openr框架中,数学问题被转换为一个语言增强的决策过程,用来逐步解决问题。这一过程被称为马尔可夫决策过程(mdp),它由状态、动作和奖励组成。
在这个框架中,每一个数学问题就是初始状态,模型生成推理步骤作为动作,然后根据当前状态和动作来决定下一个状态。
为了评估每一步的正确性,模型每完成一个步骤就会得到一个奖励或反馈。这个奖励帮助模型判断是否朝着正确方向前进。
整个过程重复进行,模型会不断调整其推理路径,目标是获得尽可能多的正面反馈或奖励。通过这种方式,模型可以在不断试错中优化其策略,从而逐渐提高其解决数学问题的能力。
为了实现这一强化学习环境,openr将mdp实现为一个类似于openai gym的环境。
在这里,每个数学问题都被看作一个任务,模型通过一系列连续的推理步骤来解决这些问题。正确的步骤获得奖励,错误的步骤则受到惩罚。这种奖惩机制使得模型能够在不断试错中逐渐优化其推理策略。
在使用强化学习训练大型语言模型(llm)时,openr采用了近端策略优化(ppo)算法来使生成的语言输出与预期的动作对齐。
ppo算法通过估算状态值和使用广义优势估算(gae)技术来计算优势值,从而帮助模型生成既符合语境又达到目标的响应。然而,ppo算法在计算优势值时需要使用一个网络来估算状态值,这在一定程度上增加了训练资源的消耗。
为了解决这个问题,openr提供了一种更高效的变体算法——群体相对策略优化(grpo)。与ppo算法不同,grpo简化了优势值的计算过程,直接使用标准化的奖励信号来估算动作的优势。
这种方法不仅减少了训练资源的消耗,还更加注重奖励模型的稳定性。通过结合ppo和grpo算法,openr能够在保证训练效果的同时提高训练效率。
为了验证openr框架的有效性,研究团队在math数据集上进行了评估。
math数据集是一个包含大量数学问题的数据集,这些问题涵盖了不同难度级别的数学推理任务。通过使用openr框架进行训练和推理,研究团队取得了显著的改进效果。
具体来说,在math数据集上,openr框架的初步实验结果表明,相对改进达到了显著提升。这一结果不仅验证了openr框架的有效性,还展示了其在复杂推理任务上的巨大潜力。
openr框架的开源不仅为研究人员提供了一个强大的工具来探索复杂推理任务的新方法,还为整个推理领域的开源社区的发展注入了新的活力。通过开源代码、模型和数据集,openr旨在吸引更多的从业人员加入到这一领域的研究中来。
为了方便用户的使用和学习,openr提供了详细的文档和教程。这些文档和教程不仅介绍了openr框架的基本概念和使用方法,还提供了丰富的示例代码和实验数据。通过这些资源,用户可以更加快速地掌握openr框架的使用方法,并在自己的研究中取得更好的成果。
此外,openr框架的开源还促进了不同研究团队之间的合作与交流。通过共享代码和数据集,研究人员可以更加便捷地进行实验验证和结果对比,从而推动整个推理领域的进步。
声明:本文来自潮外音创作者,内容仅代表作者观点和立场,且不构成任何投资建议,请谨慎对待,如文章/素材有侵权,请联系官方客服处理。
揭秘openr:首个类o1开源推理框架,增强大型语言模型复杂推理能力
在人工智能领域,推理能力的提升一直是研究者们不懈追求的目标。近年来,随着大型语言模型(llm)的飞速发展,其在自然语言处理、知识问答等方面的应用日益广泛。然而,在复杂推理任务上,llm的表现仍然存在一定的局限性。为了突破这一瓶颈,openai推出了o1模型,这一模型在推理任务上的表现甚至超过了平均人类水平,引发了...
youtube 将推出 ai“一站式服务”一键生成创意,视频创作迈入智能时代
在数字内容爆炸性增长的今天,视频已成为连接全球用户最直观、最生动的方式之一。作为视频领域的领头羊,youtube不断探索技术创新,以应对日益增长的创作需求与观众期待。9月18日,随着“made on youtube”特别活动的帷幕缓缓拉开,谷歌宣布了一系列针对youtube平台的ai创新举措,这些举措不仅有望彻底改变视频制作的方式,...
谷歌gemini 1.5 ai模型再进化:引领低成本、高性能、快速响应的新时代
在人工智能领域的不断探索与突破中,谷歌再次展示了其强大的技术实力与创新能力。近日,据科技媒体the decoder报道,谷歌对其旗下的gemini 1.5 ai模型进行了全面升级,推出了gemini-1.5-pro-002和gemini-1.5-flash-002两个新版本,标志着该模型在成本、性能及响应速度上实现了质的飞跃。这一系列升级不仅巩固了谷歌在ai...
导语据路透社周一报道,美国政府最新公告称,一项旨在限制中国在人工智能领域部分投资的相关规定即将在未来一周内出台。这项规定要求美国投资者在进行某些人工智能及其他敏感技术投资时,必须向美国财政部报告,旨在限制中国在人工智能、半导体、微电子和量子计算领域的发展。此举无疑引发了全球科技界的高度关注和讨论,特...
在人工智能领域,推理能力的提升一直是研究者们不懈追求的目标。近年来,随着大型语言模型(llm)的飞速发展,其在自然语言处理、知识问答等方面的应用日益广泛。然而,在复杂推理任务上,llm的表现仍然存在一定的局限性。为了突破这一瓶颈,openai推出了o1模型,这一模型在推理任务上的表现甚至超过了平均人类水平,引发了...
在数字内容爆炸性增长的今天,视频已成为连接全球用户最直观、最生动的方式之一。作为视频领域的领头羊,youtube不断探索技术创新,以应对日益增长的创作需求与观众期待。9月18日,随着“made on youtube”特别活动的帷幕缓缓拉开,谷歌宣布了一系列针对youtube平台的ai创新举措,这些举措不仅有望彻底改变视频制作的方式,...