2025-09-28
授课人: 黄锦滨
本课程围绕强化学习展开,介绍相关理论、方法及项目实践等,助力学生掌握强化学习知识与应用能力。
一、基础理论(4学时)
1. 主要内容:马尔可夫决策过程(MDP)、贝尔曼最优性原理
2. 基本要求:理解MDP概念,掌握贝尔曼最优性原理
3. 重点、难点
- 重点:MDP结构、贝尔曼方程
- 难点:贝尔曼最优性原理证明与应用
二、表格型方法(4学时)
1. 主要内容:Q - learning算法、SARSA算法
2. 基本要求:掌握算法原理,能实现简单应用
3. 重点、难点
- 重点:算法流程、Q值更新
- 难点:收敛性分析、超参数调整
三、深度强化学习(6学时)
1. 主要内容:深度Q网络(DQN)、双深度Q网络(DDQN)
2. 基本要求:理解网络结构与原理,能搭建训练模型
3. 重点、难点
- 重点:经验回放、目标网络机制
- 难点:深度神经网络训练、过估计问题
四、中期项目(2学时)
1. 主要内容:医疗资源调度系统设计
2. 基本要求:综合运用知识完成系统设计与实现
3. 重点、难点
- 重点:系统架构、资源分配策略
- 难点:真实场景建模、优化调度算法
五、策略梯度方法(4学时)
1. 主要内容:REINFORCE算法、近端策略优化算法(PPO)
2. 基本要求:理解策略梯度原理,掌握算法实现
3. 重点、难点
- 重点:策略梯度计算、优势函数估计
- 难点:算法稳定性、超参数优化
六、模仿学习与逆强化学习(4学时)
1. 主要内容:模仿学习方法、逆强化学习原理
2. 基本要求:掌握基本概念与方法应用
3. 重点、难点
- 重点:行为克隆、逆强化学习求解
- 难点:处理复杂任务、泛化性提升
七、多智能体强化学习(4学时)
1. 主要内容:多智能体系统结构、协同学习算法
2. 基本要求:理解系统原理,掌握常见算法
3. 重点、难点
- 重点:智能体交互建模、联合策略学习
- 难点:非平稳环境适应、通信机制设计
八、前沿专题(4学时)
1. 主要内容:元强化学习、离线强化学习(RL)
2. 基本要求:了解前沿方向与研究进展
3. 重点、难点
- 重点:元学习机制、离线策略评估
- 难点:新理论理解、实际应用探索