强化学习理论与应用

2025-09-28

 

授课人: 黄锦滨



本课程围绕强化学习展开,介绍相关理论、方法及项目实践等,助力学生掌握强化学习知识与应用能力。

 

一、基础理论(4学时)

1. 主要内容:马尔可夫决策过程(MDP)、贝尔曼最优性原理

2. 基本要求:理解MDP概念,掌握贝尔曼最优性原理

3. 重点、难点

    - 重点:MDP结构、贝尔曼方程

    - 难点:贝尔曼最优性原理证明与应用

 

二、表格型方法(4学时)

1. 主要内容:Q - learning算法、SARSA算法

2. 基本要求:掌握算法原理,能实现简单应用

3. 重点、难点

    - 重点:算法流程、Q值更新

    - 难点:收敛性分析、超参数调整

 

三、深度强化学习(6学时)

1. 主要内容:深度Q网络(DQN)、双深度Q网络(DDQN

2. 基本要求:理解网络结构与原理,能搭建训练模型

3. 重点、难点

    - 重点:经验回放、目标网络机制

    - 难点:深度神经网络训练、过估计问题

 

四、中期项目(2学时)

1. 主要内容:医疗资源调度系统设计

2. 基本要求:综合运用知识完成系统设计与实现

3. 重点、难点

    - 重点:系统架构、资源分配策略

    - 难点:真实场景建模、优化调度算法

 

五、策略梯度方法(4学时)

1. 主要内容:REINFORCE算法、近端策略优化算法(PPO

2. 基本要求:理解策略梯度原理,掌握算法实现

3. 重点、难点

    - 重点:策略梯度计算、优势函数估计

    - 难点:算法稳定性、超参数优化

 

六、模仿学习与逆强化学习(4学时)

1. 主要内容:模仿学习方法、逆强化学习原理

2. 基本要求:掌握基本概念与方法应用

3. 重点、难点

    - 重点:行为克隆、逆强化学习求解

    - 难点:处理复杂任务、泛化性提升

 

七、多智能体强化学习(4学时)

1. 主要内容:多智能体系统结构、协同学习算法

2. 基本要求:理解系统原理,掌握常见算法

3. 重点、难点

    - 重点:智能体交互建模、联合策略学习

    - 难点:非平稳环境适应、通信机制设计

 

八、前沿专题(4学时)

1. 主要内容:元强化学习、离线强化学习(RL

2. 基本要求:了解前沿方向与研究进展

3. 重点、难点

    - 重点:元学习机制、离线策略评估

    - 难点:新理论理解、实际应用探索