Lecture 13(Extra Material):PPO

news/2024/7/24 4:38:09

On-policy v.s.Off-policy

  • On-policy: The agent learned and the agent interacting with the environment is the same.
  • Off-policy: The agent learned and the agent interacting with the environment is different.

Issue of Importance Sampling:

        尽管q可以是任意的,但是q和p不能相差太多。如下图,VARx~p和VARx~q计算公式的第一项(即两个红框圈出来的地方)不同,如果q和p差别很大,p(x)/q(x)的值很大或很小,VARx~p和VARx~q就会相差很大。当sample的data不够多的时候,结果有可能出现很大的偏差:

        例如下图,当sample次数不够的时候,左式和右式可能会有很大的差距:

下面把Importance Sampling用在off-policy的case:

Importance Sampling要求Pθ和Pθ'不能差太多(即上面提到的q和p不能相差太多),这两个distribution差太多的话,important sampling的结果就会不好。如何避免它们差太多——PPO。

        PPO计算公式中的KL diversions,它所计算的θ和θ'之间的距离并不是参数上的距离,而是它们behavior上的距离。

        在做RL的时候,之所以考虑的不是参数上的距离,而是action上的距离,是因为很有可能对actor来说,参数的变化跟action的变化不是完全一致的。有时候参数小小的变了一下,output的行为就变很多,或者参数变很多,但output的行为没什么改变。我们真正在意的是actor它的行为上的差距。

PPO algorithm:

PPO2 algorithm:

        min()这部分式子,能够让Pθ和Pθ'的差距不会太大。implement PPO2比implement PPO简单一点。


http://www.niftyadmin.cn/n/299229.html

相关文章

【Java EE】-Servlet(二) Servlet API 详解

作者:学Java的冬瓜 博客主页:☀冬瓜的主页🌙 专栏:【JavaEE】 分享:寂寞会发慌,孤独是饱满的。——史铁生《命若琴弦》 主要内容:HttpServlet的方法,init,service,destroy,doGet/doPost/doPut/…

华中农业大学2023年十二届程序设计竞赛(同步赛)G. 简单的开关(思维 括号匹配+差分+前缀和 set/珂朵莉树)

题目 小夏有一台神奇的计算机,这个计算机有n个开关,初始状态均为关, 接下来,小夏想对这台计算机进行m次操作,每次操作给出三个数l,r,k, 表示将第l个(含l)到第r个(含r)开关的状态设置为开或者关(k0表示关、k1表示开)…

独立按键识别

项目文件 文件 关于项目的内容知识点可以见专栏单片机原理及应用 的第四章 IO口编写 参考图电路编写程序,要求实现如下功能: 开始时LED均为熄灭状态,随后根据按键动作点亮相应LED(在按键释放后能继续保持该亮灯状态,直至新的按键压下时为止…

开发、部署应用程序APP的【12要素原则】你顺便了解一下?

本文由 大侠(AhcaoZhu)原创,转载请声明。 链接: https://blog.csdn.net/Ahcao2008 开发、部署应用程序APP的【12要素原则】你顺便了解一下? ☘️摘要☘️介绍☘️背景☘️谁应该阅读这份文件?☘️十二要素原则🌿I. 代码库 Codebase&#x1f…

GO mod使用

Go模块是Go 1.11版本中引入的一种包管理机制,用于管理和版本控制Go项目中使用的依赖项。Go模块的目的是解决Go语言包依赖管理的问题,能够让开发者更好地管理依赖项。 使用Go模块需要满足以下条件: Go版本需要在1.11以上。需要在环境变量中设…

Docker由浅入深(一)

容器化技术介绍 介绍容器化之前,我们得先知道,为什么会出现容器化,容器化之前都经历了什么 物理机时代 部署非常慢成功很高浪费资源难于扩展与迁移受制于硬件 虚拟化时代 在同一个物理机上安装多个虚拟机,每个虚拟机安装操作…

HCIA-RS实验-路由配置-RIPv2 路由汇总和认证

RIPv2 路由汇总和认证简介: RIPv2 是一个距离向量路由协议,用于在网络中选择最佳路径。RIPv2 路由汇总和认证是两个重要的功能,可以提高路由协议的可靠性和安全性。 1. 路由汇总 路由汇总是将多个路由表项合并成一个较小的路由表项的过程。在…

利用老毛桃pe启动U盘启动ubuntu.iso,完成ubuntu系统的安装

1.双U盘,一个是老毛桃pe启动盘,可以启动grub4dos,加载了run模块,很好用(尤其是对不熟悉grub的小白) 2.大容量U盘存放ubuntu-desktop-i386.iso,U盘的格式是ntfs格式(其实这个不好&am…