CS229 | Machine Learning • Stanford University 系列内容 Awesome AI Courses Notes Cheat Sheets @ ShowMeAI

[复习]概率统计

/ Probabilities and Statistics Refresher

- 1 -

[

复习

]

概率统计

/ Probabilities and Statistics Refresher

翻译&校正 | 韩信子@

ShowMeAI

编辑 | 南乔@

ShowMeAI

原文作者 |

https://stanford.edu/~shervine

本节原文超链

[1]概率和组合简介 / Introduction to Probability and Combinatorics

░▐ 样本空间 Sample space

一个实验的所有可能结果的集合称为实验的样本空间，记作



。

░▐ 事件

Event

样本空间的任何子集



被称为一个事件。即，一个事件是一个包含可能结果的集合。

如果该实验的结果包含在 E 内，那么称



发生。

░▐ 概率论公理

Axioms of probability

对每个事件



，记

 

为事件



出现的概率：

0≤  ≤1

  =1



=1







 =

=1











概率在 0 到 1 之间（包含 0，

1）

总体事件集合中至少 1 个事件

出现了的概率是 1

互相独立的事件



, . . . ，



满足

上述公式

░▐ 排列 Permutation

一个排列是从



个对象的池子中抽取



个对象进行排列（考虑顺序）。排列的数目为：

P n,r =

n−r !

░▐ 组合

Combination

一个组合是从



个对象的池子中抽取



个对象（无序）。组合的数目为：

 , =

 ,

!

!

! − !

备注：对于

0 ≤r ≤n

，有

P n, r ≥C n, r

。

[2]条件概率 / Conditional Probability

░▐ 贝叶斯法则 Bayes' rule

对事件



和



满足





> 0

，有：

 | =

 |  

 

备注：

P A ∩B = P A P B|A = P A|B P B

。

░▐ 划分

Partition

令对所有



，





= 



。令

{



, ∈ 1,  }

，对所有



，





≠⌀

，称

{



}

为一个划分：

∀i≠j, A

∩A

=∅ 和

i=1

 =S

备注：对任意在样本空间中的事件

，

P B =

i=1

P B|A

P A

。

░▐ 贝叶斯法则的扩展形式 Extended form of Bayes' rule

令

{



, ∈ 1,  }

为样本空间的一个划分，则有：

B|A

i=1

P

B|A

░▐ 独立 Independence

当且仅当两个事件



和



是独立的，有：

 ∩ =   



。

CS229 | Machine Learning • Stanford University 系列内容 Awesome AI Courses Notes Cheat Sheets @ ShowMeAI

[复习]概率统计

/ Probabilities and Statistics Refresher

- 2 -- 2 -

[3]随机变量 / Random Variables

3.1 Definitions

░▐ 随机变量

Random variable

一个随机变量（记作



）是一个函数，将一个样本空间中的每个元素映射到一个实值。

░▐ 累积分布函数 CDF

累积分布函数（Cumulative distribution function，CDF）



是单调不递减的，且

lim

x→−∞

F x =0

和

lim

x→+∞

F x =1

。

F x

定义如下：

F x =P X≤x

备注：

a < X ≤B

= F

−F

。

░▐ 概率密度函数 PDF

概率密度函数（Probability density function ，PDF）



，表示



在两个相邻随机变量

的实现间取值的概率。

░▐ PDF 和 CDF 的关系 Relationships involving the PDF and CDF

下表总结了二者在离散和连续场景下的重要性质：

类型

CDF F

PDF



PDF 的性质

离散

F x =

≤x



P X=x

f x

=P X=x

0≤f

≤1

和





连续

F x =

−∞

f y dy

f x =

x ≥0

和

−∞

+∞



x dx=1

░▐ 分布的期望和矩 Expectation and Moments of the Distribution

下表总结了期望值





、一般期望值



 

、第



阶矩







和特征函数

 

在离

散和连续场景下的表达式：

类型

期望值





一般期望值



 

第 k 阶矩







特征函数

 

离散

i=1



f x

i=1



f x

i=1



f x

i=1



iω

连续

−∞

+∞



 

 

−∞

+∞









 

−∞

+∞





 

 

−∞

+∞





 





░▐ 方差

Variance

随机变量的方差通常记作





或



，是分布函数的扩散性的一个度量函数。定义：

Var  =

−

=

−



░▐ 标准差 Standard deviation

随机变量的标准差，通常记作，是分布函数扩散性的一个和实际随机变量值单位相当

的度量函数。定义为：

= Var 

。

░▐ 随机变量的变换

Transformation of random variables

令变量



和



由某个函数联系在一起。记 



和 



分别为



和



的分布函数：







=









░▐ 莱布尼兹积分法则 Leibniz integral rule

令



为



和



的函数，

，

是可能依赖于



的边界。

∂

∂









  =

∂

∂

⋅

 −

∂

∂

⋅ 





∂

∂

 



CS229 | Machine Learning • Stanford University 系列内容 Awesome AI Courses Notes Cheat Sheets @ ShowMeAI

[复习]概率统计

/ Probabilities and Statistics Refresher

- 3 -

3.2 概率分布/ Probability Distributions

░▐ 切比雪夫不等式 Chebyshev's inequality

随机变量



的期望值为



。对

, > 0

，下列不等式成立：

X−μ ≥kσ

≤

░▐ 主要分布

Main distributions

这里是主要需要记住的分布

分布

概率密度

PDF

特征函数

 

期望



方差

Var 

图示

离

散

X∼ℬ

n,p

xnx















iω

npq

X∼Po μ

−μ

μ e

iω

−1

连

续

∼ ,

−





−



− 

+

−

∼ ,

2



−

−





−









∼Exp





−

1−





[4]联合分布随机变量 / Jointly Distributed Random Variables

░▐ 边缘密度和累积分布 Marginal density and cumulative distribution

由联合密度概率函数





，可得：

边缘密度函数

Marginal density function

累积函数

Cumulative function

离散























,







, =





≤







≤













,



连续





 =

−∞

+∞







, 





, =

−∞



−∞







 ',' ''

░▐ 条件密度

Conditional density



关于



的条件密度通常记作



|

，定义：



|

 =





,







░▐ 独立性 Independence

当两个随机变量



和



满足如下特性时，称其为互相独立的：





, =



 





░▐ 协方差

Covariance

两个随机变量



和



的协方差，记作





或者更常见的

Cov , 

，定义如下：

Cov , ≜



= −





−





= −







░▐ 相关性 Correlation





，



为



和



的标准差，





为随机变量



和



的相关性，其定义如下：

















备注：对任何随机变量

，

∈ −1,1

。如果

和

独立，

= 0

。

[5]参数估计 / Parameter Estimation

5.1 Definitions

░▐ 随机采样 Random sample



, . . . , 



是



个和



独立同分布的随机变量，随机采样是这些随机变量的集合。

░▐ 预估器 Estimator

预估器是一个函数，用来推断一个统计模型中未知参数值。

░▐ 偏差

Bias

估计器





的偏差，定义为





分布的期望值和真实值间的差距，即：

CS229 | Machine Learning • Stanford University 系列内容 Awesome AI Courses Notes Cheat Sheets @ ShowMeAI

[复习]概率统计

/ Probabilities and Statistics Refresher

- 4 -

Bias





=





−

备注：当

E θ



= θ

，估计器被称为无偏的。

5.2 均值估计/ Estimating the Mean

░▐ 样本均值

Sample mean

会用样本统计量（可以理解为随机抽样）来估计总体参数，比如总体均值



，把样本

均值记作



，可以通过如下公式计算得到：

=



=1









备注：样本均值是无偏的，

i.e

=μ

。

░▐ 中心极限定理 Central Limit Theorem

令随机采样



, . . . , 



满足均值为



、方差为



的分布，则有：

 ∼

→+∞

 ,





5.3 方差估计/ Estimating the variance

░▐ 样本方差

Sample variance

会用样本统计量（可以理解为随机抽样）来估计总体参数

[

比如总体方差



]

，把样本

方差记作



或者





，可以通过如下公式计算得到：



=



−1

=1







−



备注：样本方差是无偏的， i.e

E s

= σ

。

░▐ 样本方差与卡方的关系 Chi-Squared relation with sample variance

令



表示随机样本的样本方差，有如下公式：



−1



∼

−1

CS229 | Machine Learning • Stanford University 系列内容 Awesome AI Courses Notes Cheat Sheets @ ShowMeAI

[复习]概率统计

/ Probabilities and Statistics Refresher

- 5 -

Awesome AI Courses Notes Cheat Sheets

Machine Learning

CS229

Deep Learning

CS230

Natural Language Processing

CS224n

Computer Vision

CS231n

Deep Reinforcement Learning

CS285

Neural Networks for NLP

CS11-747

DL for Self-Driving Cars

6.S094

...

Stanford

UC Berkeley

CMU

MIT

...

是 ShowMeAI 资料库的分支系列，覆盖最具知名度的 TOP20+门 AI 课程，旨在为读者和

学习者提供一整套高品质中文速查表，可以点击【这里】查看。

斯坦福大学（ Stanford University ）的 Machine Learning （ CS229 ）和 Deep Learning

（CS230）课程，是本系列的第一批产出。

本批两门课程的速查表由斯坦福大学计算机专业学生 Shervine Amidi 总

结整理。原速查表为英文，可点击【这里】查看

，ShowMeAI

对内容进行

了翻译、校对与编辑排版，整理为当前的中文版本。

有任何建议和反馈，也欢迎通过下方渠道和我们联络 (*￣3￣)

CS229 | Machine Learning @ Stanford University

CS230 | Deep Learning @ Stanford University

监督学习

Supervised Learning

无监督学习

Unsupervised Learning

深度学习

Deep Learning

机器学习技巧和经验

Tips and Tricks

卷积神经网络

CNN

循环神经网络

RNN

深度学习技巧与建议

Tips and Tricks

中文速查表链接

概率统计

Probabilities /Statistics

线性代数与微积分

Linear Algebra and Calculus

GitHub

ShowMeAI

https://github.com/

ShowMeAI-Hub/

ShowMeAI 研究中心

扫码回复”

速查表

”

下载