BiliBili | IBM RethinkFun | 零基础学习强化学习算法：PPO

零基础入门强化学习与PPO算法解析

视频科技

媒体详情

上传日期: 2025-06-01 22:14
来源: https://www.bilibili.com/video/BV1iz421h7gb/
处理状态: 已完成
转录状态: 已完成
LLM 提供商/模型: openai/gemini-2.5-pro-exp-03-25

转录

speaker 1: 这个视频我假设你已经具备机器学习和深度学习的基础知识，但是没有接触过强化学习。 通过这个视频我仅讲解学习批O算法所必须的强化学习的知识，目的是让你以最短的时间了解ppo算法背后的思想以及实现细节。 首先我们来了解一下强化学习里的基础概念，以大家比较熟悉的超级玛丽游戏为例，第一个概念是environment环境运行中的超级玛丽，包括你看到的游戏画面以及你看不到的游戏后台的程序就是environment，它负责产生游戏画面，根据你的动作切换游戏画面，生成敌人奖励，决定游戏什么时候结束等等。 我们不了解environment的实现细节，只能通过它设计的规则和它进行交互。 第二个概念是agent的，可以翻译为智能体，它观察环境，根据自己的策略做出动作，争取获得尽可能多的游戏得分。 当然在玩游戏时，这个策略是由玩游戏的你给出的。 强化学习就是让程序学出一个策略来，尽可能多的获得环境给的奖励。 第三个概念是state，state是游戏当前的状态，agent根据当前的状态来做出决策。 还有一个概念叫observation，observation是state的一部分。 因为在有的游戏里，agent的视野并不是全视野，它只能看到整个游戏状态的一部分。 但是在超级玛丽这个游戏里，我们认为state就等于observation，后面我们都用state。 第四个概念是action，action就是agent做出的动作。 比如在超级玛丽这个游戏里，agent根据当前的state以及自己的策略来决定做什么动作，动作只能是向左、向右以及跳三个动作。 第五个概念是reward。 Reward是当agent做出一个动作后，环境给agent的奖励或者惩罚。 比如当玛丽吃到一个金币给十分，吃到一个蘑菇给20分，被怪物打死得-100分，通关得100分。 Reward的值你可以参考游戏里的实际的值，也可以完全由你自己定义。 最终agent会尽可能让得到的reward之和最大，你reward定义的好坏很大程度上会影响模型的训练。 下一个概念是action space，也就是动作的选择空间。 超级玛丽的动作空间就为left up right policy策略函数它的输入是state，输出是action的概率分布一般用pi来表示policy。 比如给定状态St策略派给出向左的概率是0.1，向上的概率是0.2，向右的概率是0.7。 在进行强化学习、训练和推理时，一般并不是执行策略最高的策略，而是根据概率分布进行采样，原因有两点，一、训练的时候让模型要探索各种动作的可能性，这样才能学到更好的策略二、推理时让输出多样性也是非常有价值的，比如剪刀、石头布，你不能每次都是同样的动作，还比如在大模型聊天时，同一个问题每次大模型回答都是一样的。 也有些无趣。 下一个概念是trajectory轨迹，一般用套来表示，它表示一连串的状态和动作的序列，也被叫做episode或rule out。 比如游戏的初始状态为S 0，agent做出动作A 0，状态切换到S 1，然后agent做出动作A 1，以此类推，一直到游戏结束。 Trajectory里面的下一个状态St加一跟上一个状态St和动作at有关，有的状态转移是确定的，在给定的St和at的情况下得到确定的St加1。 比如大语言模型生成时，它的状态就是已经生成的token序列，当前的动作是生成下一个token，当前token生成后，已生成的序列就加上新生成的token成为下一个状态。 也有的状态转移是不确定的，比如你在游戏里面开宝箱，下一个游戏状态宝箱里的宝物是随机的。 最后一个概念，return回报，它是从当前时间点到游戏结束的。 Reward的累积和return很重要，因为我们希望在每一个状态，St agent做出的action不是追求当前部的reward最大，而是追求return最大，要有长远考虑。 下边我们复习一下统计里面期望的定义。 比如老师告诉你小明考试有20%的概率考80分，有80%的概率考90分。 那么你对小明考试得分的期望是多少呢？ 那么你肯定会说等于0.2乘以80，加上0.8乘以90等于88分。 当然还有另一种办法，就是你让小明再考N次试，然后你统计平均成绩即可。 下面我们再来复习一下期望的准确定义，每个可能的结果的概率与其结果值的乘积之和。 下面的公式表示X的期望E X其中X从分布P等于每个可能的X与X对应的概率乘积的累加，它也约等于从P中采样，X采样N次，然后统计平均值，这里是约等于因为只有当采样N区域无穷大时才是真的相等。 那么强化学习的目的是什么呢？ 就是训练一个policy神经网络派，在所有状态S下给出相应的action，让得到的return的期望最大。 换一种说法就是训练一个policy神经网络派在所有可能的trajectory中得到的return的期望最大。 下边我们就用数学来表示这个期望，trajectory top服从分布P C塔，C塔是我们要训练的策略网络里面的参数游戏的trajectory是由我们决策网络决定的。 我们期望在神经网络参数赛塔的作用下，套获得的return的期望尽可能的大。 按照期望的定义，它等于所有的套获得的return乘以套的概率的累加。 怎么让这个期望尽可能的大呢？ 可以用七度上升的办法，我们先计算梯度，我们只能改变神经网络的参数，不能改变环境给的reward，所以我们对C塔求梯度。 接下来我们进行一个数学变化，乘以P西塔套再除以P西塔套。 然后我们比我们把西塔套提出来，我们发现这样就有一个数学期望的表示形式了。 P西塔套是概率，后边的是X这样我们就可以把期望形式约等于采样N份求平均值的形式，从而去掉概率值的部分。 然后再根据log函数的求导公式，我们可以化简为这样的形式。 下边我们看一下每个trajectory套的概率应该怎么表示。 这里我们认为下一个状态是完全由当前状态和当前动作决定的。 那么一个trajectory的概率就是在这个trajectory里面所有state和这个state下给出的action的概率的连成。 Log内的连乘等于log的连加。 整理后最终的表达式如下，这个表达式的意思是对所有可能的trajectory期望最大的七度，用这个梯度乘以学习率去更新神经网络里面的参数，就是policy gradient梯度策略算法。 我们去掉对梯度的求导，看看整理后的表达式，也就是让这个表达式尽可能大的西塔就是我们要求的神经网络的参数。 我们看一下这个表达式，它的意义也很直观，它有两部分构成。 第一部分是一个trajectory得到的return，第二部分是每一部根据当前的state做出action的概率，然后求对数。 因为我们的log底数为一，它是单调递增的。 也就是说这个表达式的直观意义是，如果如果一个trajectory得到的return是大于0的，那么就增大这个trajectory里面所有状态下采取当前action的概率。 如果一个trajectory得到的return是小于00的，那么就减小这个揣这个水里面所有状态下采取当前action的概率。 那么实际我们应该怎么训练一个policy net work呢？ 首先我们定义loss函数，在需要最大化的目标函数前面加上负号来让优化器最小化的。 我们定义一个卷积神经网络输入就是当前的游戏画面，也就是state。 然后经过卷积神经网络的处理，最后输出层里面有三个神经元，经过soft max后代表三个动作的概率。 这里的概率值就是loss函数里面红色的部分。 然后我们让这个神经网络连续玩N场游戏，得到N个trajectory和N场最后的return值，这里return值就是loss公式里面蓝色的部分。 注意我们之前说过，我们对每一步的action都是按照概率进行采样的，不是选取最大值的。 这样我们就得到loss函数里面所有的值了，可以进行一个batch的训练来更新我们policy神经网络了。 更新网络，然后再玩N场游戏采集数据，然后再训练一个batch，这样往复循环。 这种更新策略叫做on policy，也就是我们采集数据用的policy和我们训练的policy是同一个。 这样有个问题就是我们大部分时间都在采集数据，训练非常慢，这也是ppo算法要解决的问题。 刚才我们说到这个表达式的直观意义是，如果一个trajectory得到的return是大于0的，那么就增加这个trajectory里面所有状态下采取当前action的概率，如果一个trajectory得到的return是小于0的，那么就减小这个trajectory里面所有状态下采取当前action的概率。 但这明显有改进的空间。 第一点就是我们是否增大或者减少在状态S下做动作A的概率，应该看做了这个动作之后到游戏结束累计的reward，而不是应该是整个trajec累积的reward。 因为一个动作只能影响他后面的reward，不能影响他之前的第二点。 第二点是对第一点的一点修正，一个动作是可以对接下来的reward产生影响，但是它有可能只影响接下来的几步，而且影响会逐步衰减，后面的蕊更多的是由他当时的动作影响的。 针对这两点我们修改公式，首先对reward的求和不是对整个tratory的进行求和，还是从当前不T到trajectory结束的reward进行求和。 第二个是引入衰减因子伽马，伽马小于1，距离当前步数T越远，当前顿作对reword的影响越小，呈指数衰减，下一步的reword乘以伽马下，下步的reword就乘以伽马的平方，以此类推。 也就是说距离当前越远的reward受当前部动作影响越小。 修改后的return我们用rt n来表示，总的思想是我们想让rtn尽可能的表现当前动作对整个trajectory return的影响，去掉其他因素。 还有一种情况会影响我们算法的稳定性，那就是在好的局势下和坏的局势下的情况。 比如在好的局势下，不论你做什么动作都能得到正的reward。 相反在坏的局势下，不论你做什么动作都会得到负的锐握的。 以好的局势为例，所有的动作都能得到正的reward，那么算法就会增加所有动作的概率，得到reward大的动作概率会增加的大一些，但是这样会让训练很慢。 最好是能让相对好的动作概率增加，相对差的动作概率减小，这样训练就会加快很多。 那有什么办法呢？ 就是给所有动作的reward都减去一个baseline，这样你就能反映这个动作相对其他动作的价值了。 对，坏的局势也一样，如果我们的bass ine选择合适，就让即使在好的局势和坏的局势下，也让动作得到的水探有正有负了。 所以我们给公式这里再减去一个baseline，这个baseline怎么确定呢？ 后面我们会讲。 它也需要用神经网络来估算，这就是act。 Tic算法用来做动作的神经网络就是act他负责做动做动作就像体操运动员，对体操运动员的动作进行打分的裁判就是critic网络，他用来评估act动作的好坏。 接下来我们还要讲几个概念，强化学习里面的概念真的很多。 第一个概念是action value function，之前我们讲的每一步的action的return都只累加它后面的reward，并且逐步衰减。 但是这也是通过具体的采样得到的值。 具体的采样有个问题，就是需要无限多次才能准确反映当前action的好坏。 如果只采样一个J个, 它的方差很大，训练很不稳定，那能不能有个函数帮我们估计一下这个action可以得到的return的期望呢？ 这就是action value function的作用。 它具体的定义就是在state s下做出action a得到的回报的期望，它反映了一个动作的价值，所以叫做动作价值函数，用kill A S A表示。 下一个概念是state value function，它表示的是在状态S下不论做任何动作得到的reten的期望值，它表示这个状态的价值，用V西塔S表示最后一个概念，advantage function优势函数，它表示在state s下做出action a比其他动作能带来多少优势。 它的公式就是动作价值函数减去状态价值函数。 这个也很理也很好理解，就是做出某一个具体动作得到的回报比这个状态的期望的回报的差值，就表示了这个动作相对其他动作的优势。 原来我们公式里是当前动作带来的return减去baseline，实际上就是想表达优势函数的意思。 现在我们有了优势函数的定义，就进一步替换我们之前公式里面的，下一步就需要看怎么计算优势函数了。 我们再看一下优势函数的定义，它是动作价值函数减去状态价值函数。 那么动作价值函数和状态价值函数有什么关系呢？ 我们看下下边这个等式实际上也很好理解。 对于St时刻做出动作，A期望得到的return的值就等于这一步得到的reward。 Rt加上衰减系数伽马乘以下一个状态St加一的状态价值函数。 然后我们把这个等式带入优势函数，发现优势函数里就只有状态价值函数了。 这样我们就由原来需要训练两个神经网络拟合动作价值函数和状态价值函数，变成只需要训练一个代表状态价值的函数就可以了。 上边我们是对reword进行一步采样。 因为在动作价值函数里状态和动作都是固定的，得到的reward也是固定的。 所以我们上面的公式推导都是等号。 下面我们想对状态价值函数也进行action和reward的采样，对trajectory下一步的action和reward进行采样，St加一的状态价值函数就约等于reward R加一加上衰减因子伽马乘以St加二的状态价值函数。 依此类推，我们可以对优势函数进行一步action和reward采样，也可以进行两步、三步或者全部进行采样，我们知道，采样的步数越多方差越大，但是偏差越小，采样的步数越少越多的部分的蕊是由状态价值函数估算，越能反映re的期望它的方差越小，但是系统偏差越大。 为了让式子表示简洁，我们定义一个中间变量。 西ma sigma的T的表示为它表示在第T步执行特定动作带来的优势。 那么C塔T加一的表示就为它表示在T加一步采取特定动作带来的优势，把优势函数的一步采样、两步采样、三步采样的公式用西ma表达式代入后，就变成了下面简介的形式。 这里你可以暂停下来进行推导。 那么我们在进行优势函数计算时，我们应该采样几步呢？ G E优势函数的答案是小孩子才做选择，我全都要。 它通过给优势函数进行一步采样、两步采样、三步采样，分配不同的权重，然后将它们的加和来表示最终的J E优势函数。 比如这里莱姆达为0.9的话，则一步采样的优势函数的权重为0.1，两步采样的权重为0.09，三步采样的权重为0.081。 我们代入把sigma表示代入J 1优势函数的表达式，然后对sigma表达式进行整理，我们发现其中有等比数列，然后用等比数列求和公式，最后整理得到这样的J A E优势函数的表达式。 它表示在状态St时做动作A的优势，并且平衡了采样不同步带来的方差和偏差的问题。 最后再来看一下我们来之不易的几个公式。 第一个是西格玛表达式，第二个是J E优势函数的表达式，第三个是我们策略梯度的优化目标函数，目的是让这个函数的值越大越好。 这里的状态价值函数我们用一个神经网络来拟合，一般它可以和策略函数共用，网络参数只是最后一层，不同状态价值函数的最后一层，只要输出一个单一的值来代表当前状态的价值即可。 那么怎么训练价值网络呢？ 那就是统计当前步到这个trajectory结束，所有的reward的衰减加和作为lab衰减系数，通过伽马来控制，让价值网络去拟合这个return值即可。 有了上边的这些知识准备，我们就可以来学习ppo算法了。 我们之前讲过on policy训练的模式，采集数据用的策略和训练的策略是同一个。 这样带来的问题是采集的数据只能用一次，就需要丢弃重新采集数据，然后再进行训练，所以训练的速度非常慢。 如果我们训练的模型和采集数据的模型不是同一个，并且采集的数据可以被用来多次训练，那就可以大大提高训练的速度。 我们先来看一个例子，老师针对小明的表现，表扬或批评小明。 如果老师表扬小明，小明就加强老师表扬的行为，如果批评小明，就减少老师批评的行为，这就是一个on policy的训练过程。 因为老师表扬和批评的以及小明调整的都是小明自己言行的policy。 那对于其他同学呢，能根据老师表扬或者批评小明的言行而调整自己言行的policy吗？ 当然是可以的。 同学们可以参考老师对小明的批评或者表扬调整自己言行的policy，这就是off policy。 如果老师批评小明上课玩手机，如果你上课玩手机的概率比小明还多，那你应该调整你上课玩手机的行为比小明还要多一些。 如果你上课玩手机的概率比小明少，那么你调整你上课玩手机的行为就比小明少一些。 我们来看一下重要性采样，我们想要求fx期望X服从分布P根据期望公式等于对每一个可能的X求fx乘以P X然后累加下来乘以X再分布Q下的概率Q X然后除以Q X等式不变，然后转换为下面这个表达式。 它的含义是对任意X Q X和这个表达式的乘积的累加。 按照数学期望的定义，它就是求这个表达式的期望X负从分布Q这样我们就可以在Q分布下采样计算F X乘以P X除以Q X的期望，它的结果就等于在P分布下采样X计算fx的期望再进一步转化后的期望约等于在X服从Q分布下采样N条记录，然后求均值。 好的，我们用重要性采样来更新我们的目标函数的梯度公式。 这样我们就可以把on policy的训练替换成off policy的训练。 我们用一个参考的策略C塔一撇来采样计算参考策略C塔一撇的优势函数，然后用它来更新我们的训练策略的。 只需要给公式里加上重要性采样的系数，P西塔除以P西塔一撇，这个公式也很符合直觉。 拿刚才老师教育学生的例子来理解，西塔一撇就是小明的策略，西塔是你的策略。 西塔一撇的优势函数就是老师对小明的批评或者表扬。 你不能直接用老师对小明言行的批评或者表扬来更新你自己的言行准则。 比如小明上课玩手机，老师批评小明，小明上课玩手机的概率是10%，你上课玩手机的概率是20%。 那么你在更新自己玩手机这个行为时，强度应该是小明的二倍才对。 接着我们再根据log函数的求导公式带入我们的表达式约去P C塔整理后就成为这样的表达式。 这个公式是梯度公式，我们去掉求梯度，在前面加上负号就变成了ppo算法的loss函数。 可以看到它是用参考的策略的一撇来进行数据采样，计算优势函数。 然后用训练的策略C塔做某个动作的概率除以参考策略C塔一撇做某个动作的概率来调整优势函数。 这样我们就可以用参考策略来进行数据采样，并且采样的数据可以多次用来训练我们的policy网络，这样就解决了on policy训练效率太低的问题。 但是有一点限制，就是这个参考的策略不能和训练的策略在同一情况下给出各种动作概率分布的差别太大。 还是拿老师教育学生为例，老师对和你差不多的学生的教育和批评，对你是最有价值的。 如果你是一个优秀的学生，老师对一个坏学生的批评对你的意义就不大。 比如一个坏学生每次考试都交白卷，老师批评他考试不应该交白卷，这个批评对你没有参考意义，因为你在考试时交白卷的概率为零，已经没有什么可以调整的了。 老师表扬这个差学生这节课上虽然没有听课，但是也没有骂老师。 这个表扬对你也没有任何参考意义，因为你从来就不骂老师。 如何给我们的loss函数增加训练的策略，不能和参考的策略分布相差太大。 这个约束呢那就是加上kl散度的约束。 Kl散度就是描述两个概率分布相似程度的量化指标，两个概率密布分布完全一致，他们的kl散度为零，分布越不一致kl散度值越大，然后通过贝塔来调整K 1散度约束的大小。 Ppr算法还有一种实现就是通过阶段函数来替代K L散度，防止训练的策略和参考的策略偏差过大。 可以看一下，它有两个部分构成，分别是红色和蓝色部分。 然后取这两个部分小的那个值，红色部分是原始的公式，蓝色部分是一个截断函数。 截断函数里面有三个部分，如果P西塔除以P西塔一撇的值在一减一普和一加一普之间，那么就返回它本身的值。 如果它的值小于1减一普就返回一减一普，如果它的值大于1加一普，就返回一加一普。 这就限制了P西塔和P西塔一撇的概率值不能相差太大。 如果一的值取0.22，假如优势函数的值为正值，就那么就应当调整P C塔，使它尽可能的大。 但是当P C塔已经调整到足够大，是P C塔一撇的1.2倍了，那就不能再调整了。 同样如果优势函数为负值，那么我们就让P C塔尽可能的小。 但是当它小到P西塔一撇的0.8倍时，就不能再小了。 好了，今天我们就讲到这里。 如果这个视频对你有帮助，请点赞支持。 下一个视频我将深入哈face强化学习的源码，讲解如何对大语言模型进行强化学习，我们下期见。

概览/核心摘要 (Executive Summary)

该视频旨在为具备机器学习和深度学习基础但未接触过强化学习的观众讲解PPO（Proximal Policy Optimization）算法。内容首先介绍了强化学习的核心概念，如环境 (Environment)、智能体 (Agent)、状态 (State)、动作 (Action)、奖励 (Reward)、动作空间 (Action Space)、策略 (Policy) 和轨迹 (Trajectory)、回报 (Return)。强化学习的目标是训练一个策略网络，使得在所有状态下或所有可能的轨迹中，获得的期望回报最大化。视频详细推导了策略梯度 (Policy Gradient) 算法，指出其通过梯度上升更新网络参数，并解释了其直观意义：增大高回报轨迹中动作的概率，减小低回报轨迹中动作的概率。

随后，视频探讨了策略梯度算法的改进方向，包括基于因果关系的奖励计算（仅考虑动作发生后的奖励）、引入衰减因子 (γ) 以及使用基线 (Baseline) 来减少方差、加速训练，引出了Actor-Critic架构。接着深入讲解了动作价值函数 (Q-function)、状态价值函数 (V-function) 和优势函数 (Advantage Function)，并推导了如何用状态价值函数表示优势函数，从而简化模型。为了平衡估计优势函数时的偏差和方差，引入了泛化优势估计 (GAE)。

最后，视频重点转向PPO算法，旨在解决On-Policy训练效率低的问题。通过引入重要性采样 (Importance Sampling)，实现了Off-Policy训练，允许使用旧策略采集的数据多次训练当前策略。PPO通过两种方式约束新旧策略的差异：一种是加入KL散度作为惩罚项，另一种是使用裁剪 (Clipping) 目标函数，限制策略概率比率的变化范围（例如在 [1-ε, 1+ε] 区间内），从而保证训练的稳定性并提高样本利用率。

强化学习基础概念

Speaker 1 详细解释了学习PPO算法前必须掌握的强化学习基本术语：

环境 (Environment): 游戏运行的整体，负责产生游戏画面、根据动作切换画面、生成敌人和奖励、决定游戏结束等。例如超级玛丽游戏中，游戏本身就是环境。
智能体 (Agent): 观察环境，并根据自身策略做出动作，以获取最大化游戏得分的程序。强化学习的目标是让程序学出一个优秀的策略。
状态 (State): 游戏在某一时刻的完整情况。Agent根据当前状态做决策。
- 观察 (Observation): State的一部分，特指Agent能感知到的信息。在超级玛丽这类游戏中，通常认为State等于Observation。
动作 (Action): Agent根据当前状态和策略做出的具体操作。例如，在超级玛丽中，动作为向左、向右、跳跃。
奖励 (Reward): Agent做出一个动作后，环境给予的即时反馈，可以是正向（奖励）或负向（惩罚）。
- 例如：吃到金币+10分，吃到蘑菇+20分，被怪物打死-100分。
- "Reward的值你可以参考游戏里的实际的值，也可以完全由你自己定义。最终agent会尽可能让得到的reward之和最大，你reward定义的好坏很大程度上会影响模型的训练。"
动作空间 (Action Space): Agent所有可选动作的集合。
策略 (Policy, π): 一个函数，输入是当前状态 (State)，输出是各个动作 (Action) 的概率分布。
- 训练和推理时，通常根据概率分布进行采样，而非直接选择概率最高的动作。
- 原因：1. 训练时探索各种可能性以学习更优策略；2. 推理时增加输出多样性。
轨迹 (Trajectory, τ): 一连串的状态和动作序列，也称作Episode或Rollout。
- 例如：S0 -> A0 -> S1 -> A1 -> ... -> 游戏结束。
- 状态转移可以是确定的（如大语言模型生成token），也可以是不确定的（如游戏中开宝箱）。
回报 (Return, G): 从当前时间点到游戏结束的所有奖励 (Reward) 的累积和（通常带衰减）。
- "Return很重要，因为我们希望在每一个状态，St agent做出的action不是追求当前部的reward最大，而是追求return最大，要有长远考虑。"

强化学习的目标

Speaker 1 指出，强化学习的根本目标是：

训练一个策略神经网络 π，使其在所有状态 S 下给出相应的动作 A，从而让得到的期望回报 (Expected Return) 最大化。
或者说，训练一个策略神经网络 π，使其在所有可能的轨迹 τ 中得到的期望回报最大化。
数学表示为：最大化 E_{τ ~ P_θ(τ)} [R(τ)]，其中 θ 是策略网络的参数，R(τ) 是轨迹 τ 的总回报。

策略梯度 (Policy Gradient) 算法

为了实现上述目标，Speaker 1 介绍了策略梯度算法：

梯度上升: 通过计算目标函数（期望回报）对策略网络参数 θ 的梯度，并沿着梯度方向更新参数，以增大期望回报。
- ∇_θ E_{τ ~ P_θ(τ)} [R(τ)]
数学推导 (Log-Derivative Trick):
- 原始梯度：E_{τ ~ P_θ(τ)} [R(τ) ∇_θ log P_θ(τ)]
- 其中，一个轨迹 τ = (s_0, a_0, s_1, a_1, ..., s_T, a_T) 的概率 P_θ(τ)（假设状态转移确定或与策略无关）可以表示为：P_θ(τ) = p(s_0) Π_{t=0}^{T} π_θ(a_t|s_t) p(s_{t+1}|s_t, a_t)。
- 简化后，∇_θ log P_θ(τ) = Σ_{t=0}^{T} ∇_θ log π_θ(a_t|s_t)。
- 最终梯度表达式近似为：E_{τ ~ P_θ(τ)} [ (Σ_{t=0}^{T} ∇_θ log π_θ(a_t|s_t)) R(τ) ]。
直观意义:
- "如果一个trajectory得到的return是大于0的，那么就增大这个trajectory里面所有状态下采取当前action的概率。"
- "如果一个trajectory得到的return是小于0的，那么就减小这个揣这个水里面所有状态下采取当前action的概率。"
训练流程 (On-Policy):
- 定义损失函数：Loss = - E_{τ ~ P_θ(τ)} [ (Σ_{t=0}^{T} log π_θ(a_t|s_t)) R(τ) ] (因为优化器通常最小化损失)。
- 使用神经网络（如CNN处理游戏画面）作为策略网络，输出动作概率。
- Agent使用当前策略网络玩N场游戏，收集N个轨迹及其回报。
- 使用收集到的数据计算损失，更新策略网络参数。
- 重复此过程。
- "这种更新策略叫做on policy，也就是我们采集数据用的policy和我们训练的policy是同一个。这样有个问题就是我们大部分时间都在采集数据，训练非常慢，这也是ppo算法要解决的问题。"

策略梯度算法的改进

Speaker 1 提出了对基础策略梯度算法的几点改进：

因果性 (Causality) 与奖励分配:
- 一个动作只应影响其发生后的奖励，而非整个轨迹的总回报。
- 修改回报计算：R(τ) 替换为从当前时刻 t 到轨迹结束的累积奖励 Σ_{t'=t}^{T} r_{t'}。
衰减因子 (Discount Factor, γ):
- 未来的奖励具有不确定性，且对当前决策的影响应小于即时奖励。
- 引入衰减因子 γ < 1，距离当前步越远的奖励，其权重呈指数衰减。
- 修改后的回报 (Discounted Return): G_t = Σ_{k=0}^{T-t} γ^k r_{t+k}。
- "也就是说距离当前越远的reward受当前部动作影响越小。"
基线 (Baseline):
- 解决在普遍好/坏局势下，所有动作回报均为正/负，导致训练缓慢的问题。
- 从回报中减去一个基线值 b(s_t)，使得算法关注动作的相对好坏。
- "最好是能让相对好的动作概率增加，相对差的动作概率减小，这样训练就会加快很多。"
- 目标函数中的 G_t 变为 G_t - b(s_t)。
- 基线的选择后续会与Critic网络关联。

Actor-Critic 架构

引入基线的思想自然地导向了Actor-Critic架构：

Actor (演员): 即策略网络 (Policy Network)，负责根据状态选择动作。
Critic (评论家): 即价值网络 (Value Network)，负责评估Actor所选动作的好坏，通常用于估计基线或价值函数。

价值函数与优势函数 (Advantage Function)

Speaker 1 引入了几个重要的价值函数概念：

动作价值函数 (Action Value Function, Q^π(s,a)):
- 定义：在状态 s 下执行动作 a，然后遵循策略 π 所能获得的期望回报。
- Q^π(s,a) = E_{s_{t+1:T}, a_{t+1:T} ~ π} [ Σ_{k=0}^{T-t} γ^k r_{t+k} | s_t=s, a_t=a ]
- "它反映了一个动作的价值，所以叫做动作价值函数"。
状态价值函数 (State Value Function, V^π(s)):
- 定义：在状态 s 下，遵循策略 π 所能获得的期望回报。
- V^π(s) = E_{a_t, s_{t+1:T}, a_{t+1:T} ~ π} [ Σ_{k=0}^{T-t} γ^k r_{t+k} | s_t=s ] = E_{a ~ π(·|s)} [Q^π(s,a)]
- "它表示这个状态的价值"。
优势函数 (Advantage Function, A^π(s,a)):
- 定义：在状态 s 下，执行动作 a 相对于平均情况下（遵循策略 π）能多带来多少回报。
- A^π(s,a) = Q^π(s,a) - V^π(s)
- "就表示了这个动作相对其他动作的优势。"
- 策略梯度目标函数中的 G_t - b(s_t) 可以用优势函数 A^π(s_t, a_t) 替换，其中基线 b(s_t) 可以用 V^π(s_t) 来估计。
优势函数的计算:
* 关系：Q^π(s_t, a_t) = E [r_t + γV^π(s_{t+1})] (单步TD估计)
* 代入优势函数：A^π(s_t, a_t) = E [r_t + γV^π(s_{t+1}) - V^π(s_t)]
* 这样，只需要训练一个状态价值网络 V^π(s) 即可估计优势函数。
* r_t + γV^π(s_{t+1}) - V^π(s_t) 这一项被称为TD误差 (Temporal Difference Error)，用 δ_t 表示。

泛化优势估计 (Generalized Advantage Estimation, GAE)

Speaker 1 解释了GAE如何平衡优势函数估计中的偏差和方差：

采样步数与偏差-方差权衡:
- 采样步数越多（如蒙特卡洛估计，使用实际的多步回报），方差越大，偏差越小。
- 采样步数越少（如单步TD估计，更多依赖价值函数估算），方差越小，偏差越大。
GAE思想:
- "小孩子才做选择，我全都要。"
- 通过对不同采样步数的优势估计进行加权平均，引入参数 λ (介于0和1之间)。
- A^{GAE}(s_t, a_t) = Σ_{l=0}^{∞} (γλ)^l δ_{t+l}
- 其中 δ_{t+l} = r_{t+l} + γV(s_{t+l+1}) - V(s_{t+l}) 是第 t+l 步的TD误差。
- 当 λ=0 时，A^{GAE}(s_t, a_t) = δ_t (单步TD，高偏差低方差)。
- 当 λ=1 时，A^{GAE}(s_t, a_t) = Σ_{l=0}^{∞} (γ)^l δ_{t+l} = Σ_{l=0}^{∞} γ^l r_{t+l} - V(s_t) (蒙特卡洛估计，低偏差高方差)。
价值网络的训练:
- 目标：让价值网络 V(s) 拟合实际观测到的衰减回报 G_t。
- 损失函数：例如均方误差 (G_t - V_θ(s_t))^2。

PPO (Proximal Policy Optimization) 算法

Speaker 1 详细阐述了PPO算法如何解决On-Policy训练效率低的问题，并引入Off-Policy学习：

Off-Policy 与重要性采样 (Importance Sampling):
- On-Policy: 采集数据的策略和训练的策略是同一个，数据用一次即丢弃。
- Off-Policy: 训练的模型 (目标策略 π_θ) 和采集数据的模型 (行为策略 π_θ') 可以不同，数据可复用。
- 重要性采样: 用于修正不同策略采样数据分布的差异。
  - E_{x~P} [f(x)] = E_{x~Q} [f(x) * P(x)/Q(x)]
  - 应用到策略梯度：∇_θ J(θ) = E_{τ ~ π_θ'} [ (P_θ(τ)/P_θ'(τ)) (Σ log π_θ(a_t|s_t)) A^{π_θ'}(s_t,a_t) ] (简化形式)
  - 更常用的形式是针对每一步的概率比：r_t(θ) = π_θ(a_t|s_t) / π_θ'(a_t|s_t)
  - 目标函数变为：L^{CPI}(θ) = E_t [ (π_θ(a_t|s_t) / π_θ'(a_t|s_t)) A_t^{π_θ'} ]
  - "这个公式也很符合直觉...比如小明上课玩手机，老师批评小明，小明上课玩手机的概率是10%，你上课玩手机的概率是20%。那么你在更新自己玩手机这个行为时，强度应该是小明的二倍才对。"
PPO 的核心思想与约束:
- 重要性采样要求行为策略 π_θ' 和目标策略 π_θ 不能相差太大，否则重要性权重 r_t(θ) 的方差会很大。
- PPO通过约束策略更新的幅度来解决此问题。
PPO 的两种主要实现:
- PPO-Penalty (KL散度约束):
  - 在目标函数中加入KL散度作为惩罚项，惩罚 π_θ 与 π_θ' 之间的差异。
  - L^{KLPEN}(θ) = E_t [ r_t(θ) A_t^{π_θ'} - β KL[π_θ'(·|s_t) || π_θ(·|s_t)] ]
  - β 是调整KL散度约束大小的系数。
- PPO-Clip (裁剪目标函数):
  - 这是更常用的PPO形式。
  - 目标函数：L^{CLIP}(θ) = E_t [ min( r_t(θ)A_t^{π_θ'}, clip(r_t(θ), 1-ε, 1+ε)A_t^{π_θ'} ) ]
  - ε 是一个超参数，通常取0.1或0.2。
  - 裁剪 (clip) 函数:
    - 如果 r_t(θ) 在 [1-ε, 1+ε] 之间，则 clip(r_t(θ), 1-ε, 1+ε) = r_t(θ)。
    - 如果 r_t(θ) < 1-ε，则 clip(r_t(θ), 1-ε, 1+ε) = 1-ε。
    - 如果 r_t(θ) > 1+ε，则 clip(r_t(θ), 1-ε, 1+ε) = 1+ε。
  - 直观解释:
    - 当优势 A_t 为正时，希望增大 r_t(θ)（即增大 π_θ(a_t|s_t)），但 r_t(θ) 最大被限制在 1+ε，防止策略更新过大。
    - 当优势 A_t 为负时，希望减小 r_t(θ)（即减小 π_θ(a_t|s_t)），但 r_t(θ) 最小被限制在 1-ε，同样防止策略更新过大。
    - "这就限制了P西塔和P西塔一撇的概率值不能相差太大。"

总结与展望

Speaker 1 总结了从强化学习基础到PPO算法的讲解过程，强调PPO通过Off-Policy学习和策略更新限制，有效提高了训练效率和稳定性。
视频最后预告，下一个视频将深入Hugging Face强化学习库的源码，讲解如何对大语言模型进行强化学习。

摘要历史 (1)

Detailed Summary 摘要

模型：gemini-2.5-pro-exp-03-25

2025-06-01 22:17

StreamSparkAI