CS229 | Machine Learning Stanford University 系列内容 Awesome AI Courses Notes Cheat Sheets @ ShowMeAI
第一部分 监督学习
/ Supervised Learning
- 1 -
第一部分 监督学习
/ Supervised Learning
翻译&校正 | 韩信子@
ShowMeAI
编辑 | 南乔@
ShowMeAI
原文作者 |
https://stanford.edu/~shervine
本节原文超链
[1]监督学习简介 / Introduction to Supervised Learning
给定组数
{x
1
,. . . ,x
m
}
及对输出
{y
1
,. . . ,y
m
}
,构一个
1
,学
如何从
x
预测
y
░▐ 预测类型
Type of prediction
下表总结了不同类型的预测模型:
回归
分类
输出
连续值
离散类别
例子
线性回归
Logistic
回归,
SVM
,朴素贝叶
░▐ 模型类型
Type of model
下表总结了不同类型的模型:
判别模型
生成模型
目标
直接估计
P y|x
估计
P x|y
,然后推导
P y|x
所学内容
决策边界
数据的概率分
例图
示例
回归,SVMs
GDA,朴素贝叶斯
1
译者注:原文 Classifier,意为分类器。但监督学习覆盖分类回归不同的问题,因此译者将其改
成了预估器(estimator)
[2]数学符号和常见概念 / Notations and General Concepts
░▐ 假设 Hypothesis
选定模型
。对于给定的输入数据
,该模型预测的输出是
░▐ 损失函数
Loss function
损失函数
: , × ,
,以
[实际数据值]
[预测值]为输入,输出
二者之间的差异程度。下表总结了常见的损失函数:
最小二乘误
Logistic
合页损失
交叉熵
1
2
yz
2
log 1+exp −yz
max 0,1yz
−[ylog z + 1y log 1z ]
线性回归
Logistic 回归
SVM
神经网络
░▐ 成本函数
2
Cost function
成本函数
通常用于评估模型的性能。定义如下
[
为损失函数
]
=
=1
░▐ 梯度下降 Gradient descent
梯度下降的更新规则表示如下 [
为学习率,
为成本函数]
∇
2
译者注:也常被译作 代价函数。
CS229 | Machine Learning Stanford University 系列内容 Awesome AI Courses Notes Cheat Sheets @ ShowMeAI
第一部分 监督学习 / Supervised Learning
- 2 -
备注:随机梯度下降(
SGD
)是根据每个训练样本进行参数更新,而批量梯度下降是
一批训练样本上进行更新。
░▐ 似然 Likelihood
θ
为参数的模型 L
θ
的似然函数,可以用于寻找使得函数最大化的最佳参数
θ
θ
opt
=arg max
θ
L
θ
备注:实际上,通常使用更容易优化的对数似然
θ
= log
L θ
░▐ 牛顿算法 Newton's algorithm
牛顿算法是一种数值方法,目的是找到一个
θ
,使得
' θ = 0
更新规则如下:
'
″
备注:多维泛化,也称为 Newton-Raphson 方法,更新规则如下:
2
−1
[3]线性模型 / Linear Models
3.1 线性回归 / Linear regression
假设
y|x;θ μ,σ
2
░▐ 正规方程
Normal equations
我们把设计函数记作
X
,使得成本函数最小的参数
θ
是符合下式的闭式解:
=
−1
░▐ 最小均方算法
LMS algorithm
m
个数训练小均
Least Mean Squares
LMS
)算更新
被称为“
Widrow- Hoff
学习规则”。形式如下
[α
为学习率
]
∀, 
+
=1
备注:更新规则是梯度上升的特定情况。
░▐ 局部加权回归
LWR
Locally Weighted RegressionLWR线性
τ
对成本函数中每个训练样本
x
进行加权,形式如下
=exp
2
2
2
3.2 分类和逻辑回归 / Classification and Logistic Regression
░▐
Sigmoid
函数
Sigmoid function
sigmoid
函数
(也称
Logistic Function
3
),定义如下:
∀z g
z =
1
1+e
−z
0,1
░▐ 逻辑回归
Logistic regression
假设
|; Bernoulli
。则
y
取值为
1
的概率
的计算公式如下:
=
=1|;
=
1
1+exp
=
备注:对于逻辑回归的情况,没有闭式解。
░▐ Softmax 回归 Softmax regression
Softmax 回归,也称作类逻归,辑回归在2 别的分类下的
拓展。我们设
=0
,则每个类
的概率(伯努利参数
等于:
3
译者注:没有统一的中文翻译,可被译作“逻辑函数”或音译为“逻辑斯蒂函数”。
CS229 | Machine Learning Stanford University 系列内容 Awesome AI Courses Notes Cheat Sheets @ ShowMeAI
第一部分 监督学习 / Supervised Learning
- 3 -
=
exp
=1
exp
3.3 广义线性模型/ Generalized Linear Models
░▐ 指数族
Exponential family
如果可以
[
自然,也标准函数
]
[
充分
]
[
对数配分函数
]
来表示,那么它属于指数族,形式如下:
p
y;η
=b y exp
ηT y −a η
备注:经常会有
T y = y
。此外,
exp
a η
可以看作是归一化参数,以确保概率总
和为 1
下表总结了的最常见的指数分布:
伯努利
log
1
log 1+exp
1
高斯
2
2
1
2
exp
2
2
泊松
log
1
!
几何
log 1
log
1
1
░▐ 广义线性模型的假设 Assumptions of GLMs
广义线模型
Generalized Linear Models
GLM
),
+1
预测机变
的函数,依赖以下
3
个假设:
1
 |;ExpFamily
2
 ℎ
=
|; 3
 =
备注:普通最小二乘法和逻辑回归是广义线性模型的特例。
[4]支持向量机 Support Vector Machines
支持向量机的目标是找到一条线,可以最大化
[
决策边界和训练样本之间的最小距离
]
░▐ 最优间隔分类器
Optimal margin classifier
最优间隔分类器
定义如下:
=sign
其中
w, b
n
×
是以下最优化问题的解:
min
1
2
||
2
  使得 
1
备注:支持向量中间的分割线定义为
w
T
x b = 0
░▐ 合页损失 Hinge loss
SVM
中使用了合页损失,定义如下:
L z,y = 1yz
+
=max 0,1yz
░▐
Kernel
给定特征映射
,核
定义如下:
, =
实际上,高斯核更为常用,定义如下
,
=
||
2
2
2
备注:由显示映射
ϕ
计算成本函数是非常复杂的。而使用
核技巧
计算成本函数,则
只需要知道
K x,z
的值。
CS229 | Machine Learning Stanford University 系列内容 Awesome AI Courses Notes Cheat Sheets @ ShowMeAI
第一部分 监督学习 / Supervised Learning
- 4 -
░▐ 拉格朗日
Lagrangian
将拉格朗日
w, b
定义如下
[ β
i
为拉格朗日乘子
]
, =  +
=1
[5]生成学习 / Generative Learning
生成模型先通过预估计算
|
来学习数据分布,然后使用贝叶斯法则估计
|
5.1 高斯判别分析 Gaussian Discriminant Analysis
░▐ 前提假设
Setting
高斯判别分析的假设如下:
1 Bernoulli 2  |=0
0
, 3 |=1
1
,
░▐ 估计 Estimation
下表总结了使得似然函数最大时的估计值:
)1,0(
ju
j
1
=1
1
{
=1}
=1
1
{
=}
=1
1
{
=}
1
=1
5.2 朴素贝叶 Naive Bayes
░▐ 假设 Assumption
朴素贝叶斯模型假设每个数据点的特征是相互独立的:
P
x|y
=P
x
1
,x
2
,...|y
=P
x
1
|y
P
x
2
|y
...=
i=1
n
P
x
i
|y
░▐
Solutions
最大化对数似然的解,形式如下【
{0,1},
1,
】:
P y=k =
1
m
×#{j|y
j
=k}
P
x
i
=l|y=k
=
#{j|y
j
=k
x
i
j
=l}
#{j|y
j
=k}
备注:朴素贝叶斯广泛应用于文本分类垃圾邮件检测
[6]基于树模型的集成方法 / Tree-based and Ensemble Methods
适用于回归问题分类问题
░▐ 分类回归树
CART
Classification and Regression Trees
CART
决策树,可以
为二叉树。其优点是具备可解释性。
░▐ 随机森林 Random forest
是一种基于树模型的技术,它使用大量随机选择的特征集构建决策树并集成。与决策树
相反,它具备高度不可解释性,但其普遍良好的表现使其成为一种流行的算法。
备注:随机森林是一种集成方法。
░▐ 提升
/ Boosting
Boosting 的思路,是将几个弱学习器结合起来,形成一个更强大的学习器。见下方:
CS229 | Machine Learning Stanford University 系列内容 Awesome AI Courses Notes Cheat Sheets @ ShowMeAI
第一部分 监督学习 / Supervised Learning
- 5 -
自适应增强
梯度提升
在下一轮提升步骤中,错误的样本会被置于高权重
最常见的是 Adaboost
训练弱学习器拟合残差
最常见的比如 Xgboost
[7]其他非参数方法 / Other Non-parametric Approaches
░▐
k
-近邻
k
-nearest neighbors
-
近邻算法(也称
-NN
),是一种非参数方法。一个预估样本的结果,是基于特征空
间中
个最相似(即特征空间中
K
近邻)的样的取值来确定的。适用于分类问题
回归问题
4
备注:
k
越大,误差越大;
k
越小,方差越大。
[8]学习理论 / Learning Theory
░▐ 并集的上界 Union bound
1
, . . .
个事件,则
1
. . .
1
+ . . . +
4
译者注:在分类问题中取 k 近邻中最多的类别,在回归问题中取 k 近邻的取值均值。
░▐ 霍夫丁不等式
Hoeffding’s inequality
1
, . . . ,
个独立分布变量,取参数
的伯努分布。设
为样本值,
> 0
,则有:
> 2exp −2
2
备注:这个不等式也被称为切诺夫界(Chernoff bound)
░▐ 训练误差
Training error
给定分类器
,定义
为训练误差(也称经验风险或经验误差),形式如下:
=
1
=1
1
{ℎ
≠
}
░▐ 概率近似正确
PAC
在概率近似正确
Probably Approximately Correct
PAC
)的框架下,许多学习理
的成果得以证明。PAC 具有以下假设:
1) 训练集和测试集遵循相同的分布
2)
训练样本是相互独立的
░▐ 打散
Shattering
={
1
,...,
}
为集
为一分类果任组标
{
1
,...,
}
都能
足以下条件,则称
打散
∃ℎ,∀
1,
, ℎ
=
░▐ 上限定理 Upper bound theorem
是有限假设类且
=
、样本大
均为固定值。在概率至少为
1
的情况
下,则有:
min
ℎ∈ℋ
+2
1
2
log
2
CS229 | Machine Learning Stanford University 系列内容 Awesome AI Courses Notes Cheat Sheets @ ShowMeAI
第一部分 监督学习 / Supervised Learning
- 6 -
░▐
VC
[ VC dimension]
VC
VC
Vapnik-Chervonenkis dimension
VC
dimension
),注意
VC
是由
打散的最大集合。
备注:
= 2 维线性分类器集
,其 VC 维数为 3
░▐ 定理 Theorem (Vapnik)
VC
=
为训练样本数。在概率至少为
1
的情况下,有:
min
ℎ∈ℋ
+
log
+
1
log
1
CS229 | Machine Learning Stanford University 系列内容 Awesome AI Courses Notes Cheat Sheets @ ShowMeAI
第一部分 监督学习 / Supervised Learning
- 7 -
Awesome AI Courses Notes Cheat Sheets
Machine Learning
CS229
Deep Learning
CS230
Natural Language Processing
CS224n
Computer Vision
CS231n
Deep Reinforcement Learning
CS285
Neural Networks for NLP
CS11-747
DL for Self-Driving Cars
6.S094
...
Stanford
Stanford
Stanford
Stanford
UC Berkeley
CMU
MIT
...
ShowMeAI 系列盖最知名 TOP20+ AI
学习者提供一整套高品质中文速查表,可以点击【这里】查看。
Stanford University Machine Learning CS229 Deep Learning
CS230)课程,是本系列的第一批产出。
算机 Shervine Amidi
结整理。原速查表为英文,可点击【这里】查看
ShowMeAI
对内容进行
了翻译、校对与编辑排版,整理为当前的中文版本。
有任何建议和反馈,也欢迎通过下方渠道和我们联络 (*3)
CS229 | Machine Learning @ Stanford University
CS230 | Deep Learning @ Stanford University
监督学习
Supervised Learning
无监督学习
Unsupervised Learning
深度学习
Deep Learning
机器学习技巧和经验
Tips and Tricks
卷积神经网
CNN
循环神经网
RNN
深度学习技巧与建议
Tips and Tricks
中文速查表链接
中文速查表链接
中文速查表链接
中文速查表链接
中文速查表链接
中文速查表链接
中文速查表链接
概率统计
Probabilities /Statistics
线性代数与微积分
Linear Algebra and Calculus
GitHub
ShowMeAI
https://github.com/
ShowMeAI-Hub/
ShowMeAI 研究中心
扫码回复
速查表
下载
最新
全套资料
中文速查表链接
中文速查表链接