课程介绍
要实现人工智能的梦想和影响,需要学会做出正确决策的自主系统。强化学习是这样做的一个强大范例,它与大量任务相关,包括机器人技术、游戏、消费者建模和医疗保健。
CS234是顶级院校斯坦福出品的强化学习方向专业课程,为强化学习领域提供坚实的介绍。学生将学习核心挑战和方法,包括概括和探索。
通过讲座、书面和编码作业的结合,学生将精通RL的关键思想和技术。作业将包括强化学习的基础知识以及深度强化学习——这是一个将深度学习技术与强化学习相结合的非常有前途的新领域。
课程讲师 Emma Brunskill,斯坦福计算机科学系副教授,卡内基梅隆大学的助理教授。专注于创建人工智能系统——从少量样本中学习,在医疗保健和教育领域稳健地做出良好决策。
课程主题
CS234 对于强化学习初步到构建全局认知有很大帮助。
- Introduction to Reinforcement Learning(强化学习介绍)
- Tabular MDP planning(表格型马尔科夫决策)
- Tabular RL policy evaluation(表格型强化学习策略评估)
- Q-learning(Q学习)
- RL with function approximation(基于函数估计的强化学习)
- Policy search(策略搜索)
- Fast Learning(快速学习)
- Batch Reinforcement Learning(批强化学习)
- Monte Carlo Tree Search(蒙特卡洛树搜索)
课程资料 | 下载
扫描上方图片二维码,关注公众号并回复关键字 🎯『CS234』,就可以获取整理完整的资料合辑啦!当然也可以点击 🎯 这里 查看更多课程的资料获取方式!
ShowMeAI 对课程资料进行了梳理,整理成这份完备且清晰的资料包:
- 📚 课件(PDF)。Lecture 1~16(官方未发布第14章的视频和课件)。
- 📚 笔记(PDF)。Note 1~14(部分笔记对应2章内容)。
- 📚 作业及参考解答(PDF)。Assignment 1~3 作业、代码和答案。
课程视频 | B站
ShowMeAI 将视频上传至B站,并增加了中英双语字幕,以提供更加友好的学习体验。点击页面视频,可以进行预览。推荐前往 👆 B站 观看完整课程视频哦!
本门课程,ShowMeAI 将部分章节进行了切分,按照主题形成更短小的视频片段,便于按照标题进行更快速的检索。切分后的视频清单列写在这里:
序号 | 视频章节 | 视频清单 |
---|---|---|
L1 | 第01讲 | 内容介绍与初步 |
L2 | 第02讲 | Making Sequences of Good Decisions |
L3 | 第03讲 | 无模型策略评估 |
L4 | 第04讲 | 无模型控制 |
L5 | 第05讲 | 价值函数估计 |
L6 | 第06讲 | 卷积神经网络与Deep Q Learning |
L7 | 第07讲 | 模仿学习 |
L8 | 第08讲 | 梯度策略 l |
L9 | 第09讲 | 梯度策略 ll |
L10 | 第10讲 | 梯度策略 lll |
L11 | 第11讲 | 快速强化学习&探索与利用 |
L12 | 第12讲 | 快速强化学习&探索与利用ll |
L13 | 第13讲 | 快速强化学习&探索与利用II |
L14 | 第15讲 | 批强化学习 |
L15 | 第16讲 | 蒙特卡洛树搜索 |
根据视频内容整理的这份『CS234 课程结构图解』,展示了内容要点及其逻辑关系,超级直观!相信对构建 Whole Picture 特别有帮助~
从图解可以看出来,学习本门课程后,会有如下收获:
- 定义强化学习与人工智能和非交互式机器学习的主要区别。
- 给定一个应用问题(例如,来自计算机视觉、机器人学等),决定是否将其表述为RL问题;如果是,则能够正式定义它(根据状态空间、动作空间、动力学和奖励模型),说明什么算法最适合解决它,并证明你的答案。
- 在代码中实现常见的RL算法)。
- 描述(列出并定义)分析RL算法的多个标准,并根据这些指标评估算法:例如遗憾、样本复杂性、计算复杂性、经验性能、收敛性等。
- 描述探索与开发挑战,并比较和对比至少两种解决这一挑战的方法(在性能、可扩展性、实现复杂性和理论保证方面)。
学习建议
- 精通Python。所有课堂作业都将使用Python。能熟练使用C/C++/Matlab/Javascript等编程语言也可以。
- 大学微积分、线性代数。能够熟练地学习导数,理解矩阵向量运算和符号。
- 基本概率和统计。知道概率、高斯分布、均值、标准差等的基本知识。
- 机器学习的基础。课程将制定成本函数,采用导数,并使用梯度下降法进行优化。