近端策略优化（PPO）：强化学习中的稳定与高效算法

发布于 2026年03月17日 19:00 ·

近端策略优化（PPO）：强化学习中的稳定与高效算法

引言

在强化学习领域，策略梯度方法因其能够直接优化策略函数而备受关注。然而，传统的策略梯度方法往往存在训练不稳定、样本效率低下等问题。为了解决这些挑战，Schulman等人于2017年提出了近端策略优化（Proximal Policy Optimization, PPO）算法，它结合了信赖域方法的稳定性和重要性采样的效率，成为当前最流行且实用的策略优化算法之一。

本文将深入探讨PPO的核心思想、算法原理、实现细节及其优势，并通过代码示例展示如何在实践中应用PPO。

PPO的核心思想

PPO的核心目标是在保证策略改进的同时，避免因策略更新过大而导致性能崩溃。它通过引入剪切（Clipping）机制来限制新旧策略之间的差异，从而实现对策略更新的“安全”调整。

PPO的关键创新在于：

使用重要性采样：利用旧策略收集的数据来评估新策略。

引入剪切操作：确保策略更新不会偏离原始策略太远。

结合多个损失函数：包括策略损失、价值函数损失和熵正则化项。

PPO的数学原理

1. 目标函数

PPO的目标是最小化以下目标函数：

$$
L^{CLIP}(\theta) = \mathbb{E}t\left[\min\left(rt(\theta)\hat{A}t, \text{clip}(rt(\theta), 1 - \epsilon, 1 + \epsilon)\hat{A}t\right)\right]
$$

其中：

$ rt(\theta) = \frac{\pi\theta(at|st)}{\pi{\theta{old}}(at|st)} $ 是重要性权重（比率）；

$ \hat{A}t $ 是优势估计；

$ \epsilon $ 是剪切参数（通常为0.1或0.2）；

$ \text{clip}(rt(\theta), 1 - \epsilon, 1 + \epsilon) $ 确保比率被限制在 $[1-\epsilon, 1+\epsilon]$ 范围内。

2. 完整损失函数

除了剪切项，PPO还包含其他损失项：

$$
L^{total}(\theta) = L^{CLIP}(\theta) - c1 L^{VF}(\theta) + c2 S\pi\theta
$$

其中：

$ L^{VF}(\theta) $ 是价值函数的均方误差损失；

$ S\pi\theta $ 是熵奖励，鼓励探索；

$ c1 $ 和 $ c2 $ 是超参数，用于平衡各项的重要性。

PPO的实现步骤

以下是PPO算法的主要流程：

收集轨迹数据：使用当前策略与环境交互，收集状态、动作、奖励等数据。

计算优势估计：通常使用广义优势估计（GAE）。

更新网络参数：最小化上述目标函数。

重复以上过程。

Python代码示例

下面是一个简化的PPO实现框架（基于PyTorch）：

import torch
import torch.nn as nn
import torch.optim as optim
class ActorCritic(nn.Module):
    def init(self, statedim, actiondim):
        super(ActorCritic, self).init()
        self.actor = nn.Sequential(
            nn.Linear(statedim, 64),
            nn.Tanh(),
            nn.Linear(64, 64),
            nn.Tanh(),
            nn.Linear(64, actiondim),
            nn.Softmax(dim=-1)
        )
        self.critic = nn.Sequential(
            nn.Linear(statedim, 64),
            nn.Tanh(),
            nn.Linear(64, 64),
            nn.Tanh(),
            nn.Linear(64, 1)
        )
def forward(self, state):
        actionprobs = self.actor(state)
        value = self.critic(state)
        return actionprobs, value
def computegae(rewards, values, gamma=0.99, tau=0.95):
    gae = 0
    advantages = []
    for i in reversed(range(len(rewards))):
        delta = rewards[i] + gamma  values[i+1]  (1 if i+1 < len(values) else 0) - values[i]
        gae = delta + gamma  tau  gae
        advantages.append(gae)
    return list(reversed(advantages))

初始化模型、优化器和超参数
model = ActorCritic(statedim=4, actiondim=2)
optimizer = optim.Adam(model.parameters(), lr=3e-4)
epsclip = 0.2
训练循环
for epoch in range(numepochs):
    states, actions, rewards = collecttrajectory(env, model)
    
    # 计算价值和优势
    values = model(torch.FloatTensor(states)).values.detach().numpy().flatten()
    advantages = computegae(rewards, values)
    
    # 转换为张量
    states = torch.FloatTensor(states)
    actions = torch.LongTensor(actions)
    oldactionprobs = model.actor(states).gather(1, actions.unsqueeze(1)).detach()
    advantages = torch.FloatTensor(advantages)
# PPO更新
    for  in range(Kepochs):
        newactionprobs, newvalues = model(states)
        newactionprobs = newactionprobs.gather(1, actions.unsqueeze(1)).squeeze()
        
        ratio = newactionprobs / (oldactionprobs + 1e-8)
        surr1 = ratio * advantages
        surr2 = torch.clamp(ratio, 1-epsclip, 1+epsclip) * advantages
        
        policyloss = -torch.min(surr1, surr2).mean()
        valueloss = nn.MSELoss()(newvalues.squeeze(), torch.FloatTensor(rewards))
        entropybonus = -(newactionprobs * torch.log(newactionprobs + 1e-8)).sum(dim=-1).mean()
        
        loss = policyloss + 0.5valueloss - 0.01entropybonus
        optimizer.zerograd()
        loss.backward()
        optimizer.step()

PPO的优势与挑战

优势

稳定性高：剪切机制防止策略突变。
样本效率高：可以重用旧数据多次更新。
易于调参：相比TRPO/ACKTR，PPO的超参数较少且鲁棒性强。

挑战

计算开销较大：需要多次遍历数据集进行更新。
超参数敏感性：虽然比传统方法好，但仍需精细调参。

总结

PPO作为一种兼具稳定性和效率的策略优化算法，已成为现代深度强化学习的基石之一。其简洁的设计和强大的表现使其适用于广泛的连续和离散控制任务。无论是Atari游戏、机器人控制还是自动驾驶，PPO都展现了卓越的性能。

随着强化学习技术的不断发展，PPO将继续扮演重要角色，并与其他先进算法（如SAC、IMPALA等）共同推动AI系统的智能化进程。

如果你正在寻找一个可靠且高效的强化学习算法来实现复杂决策任务，PPO绝对值得你深入研究与实践！