CS229 | Machine Learning • Stanford University 系列内容 Awesome AI Courses Notes Cheat Sheets @ ShowMeAI

第二部分无监督学习

/ Unsupervised Learning

- 1 -

第二部分无监督学习 / Unsupervised Learning

翻译&校正 | 韩信子@ShowMeAI 编辑 | 南乔@ShowMeAI 原文作者 | https://stanford.edu/~shervine 本节原文超链

[1]无监督学习简介/ Introduction to Unsupervised Learning

░▐ 动机 Motivation

无监督学习的目标是，通过对无标签数据集

{



，

. . . , 



}

的学习，揭示数据的内在分

布特性及规律。

░▐ 琴生不等式

Jensen's inequality

对凸函数



和随机变量



，以下不等式成立：

  ≥ 

[2]聚类 / Clustering

2.1 E-M 算法 / Expectation-Maximization

░▐ 隐变量

Latent variables

隐变量不可观测的特性，为估测增加了难度。隐变量写作



。以下是隐变量常见设定：

设定

隐变量



|



元混合高斯分布

Multinomial ϕ

 μ

,Σ

∈

ℝ

,ϕ∈

ℝ

因子分析

 0,

 +,





∈ℝ



░▐ 算法 Algorithm

E-M 算法（Expectation-Maximization Algorithm）能够高效地估计参数



——通过重

复构建似然函数的下界（E-步）和最优化下界（M-步）进行极大似然估计：

E-

步：计算后验概率

，其中每个数据点

来自特定的簇

，过程：

= P z

; θ

M-

步：使用后验概率

作为簇在数据点

上的特定权重来分别重新估计每个簇

模型，过程： ·

argmax





log

P x

;θ

备注：Gaussians initialization[高斯初始化] → E 步 → M 步 → Convergence[收敛]。

2.2



-均值聚类 /



-means Clustering

记





为数据点



的簇，





是簇



的中心。

░▐ 算法

Algorithm

在随机初始化簇中心



, 

, . . . ,





∈ℝ



后，

均值算法重复下列步骤直至收敛：

=argmin

−μ

和 μ

i=1

=j}

 x

i=1

=j}



CS229 | Machine Learning • Stanford University 系列内容 Awesome AI Courses Notes Cheat Sheets @ ShowMeAI

第二部分无监督学习

/ Unsupervised Learning

- 2 -

备注：

Means initialization[

初始化中心

]

→

Cluster assignment[

分类聚类类别

]

→

Means update[

更新中心

]

→

Convergence[

收敛

]

。

░▐ 失真函数

Distortion function

为了看到算法是否收敛，失真函数定义如下：

 , =

=1







−







2.3 层次聚类 / Hierarchical Clustering

░▐ 算法 Algorithm

层次聚类也是聚类算法，采用自底向上逐步聚合的方法，构建嵌套的层次化聚类结果。

░▐ 类型

Types

不同类型的层次聚类算法，用以优化不同的目标函数优化问题，总结如下表：

内链

均链

全链

最小化簇内距离

最小化簇对平均距离

最小化簇对最大距离

2.4 聚类评估指标 / Clustering Assessment Metrics

与监督学习相比，无监督学习中的模型性能通常难以评估，因为无监督学习没有标准答

案（

ground truth labels

）。

░▐ 轮廓系数

Silhouette coefficient

为某一样本与同一簇中其他所有点的平均距离，

为此样本与最近簇中其他所有点的

平均距离。则该样本的轮廓系数

（ Silhouette coefficient）定义为：

=

−

max

,

░▐ CH 指标 Calinski-Harabaz index

为簇的数目。B

为簇间弥散矩阵， W

为簇内弥散矩阵，定义如下：





=1









 





−







−







=1







−











−







指标（

Calinski-Harabazindex

），表示一个聚类模型对簇的定义程度。指标得分越

高，表示簇越稠密且分隔性能越好。记作

s k

，表示如下：

  =

Tr 



Tr 



−

−1

[3]降维 / Dimension Reduction

3.1 主成分分析/ PCA

是一种降维技术，可以找到方差最大化的方向，并将数据投影到该方向上。

░▐ 特征值 & 特征向量 Eigenvalue, eigenvector

给定矩阵

∈ℝ

×

。若存在特征向量

∈ℝ



∖{0}

满足下方公式，则



为矩阵



的一个

特征值。

= 

░▐ 谱定理

Spectral theorem

给定矩阵

A ∈

ℝ

n×n

。如果

是对称阵，那么

可以被一个实正交矩阵

U ∈

ℝ

n×n

对角

化。记

Λ= diag

, . . . , λ

，则有：

∃为对角矩阵， =



备注：与最大特征值对应的特征向量，被称为矩阵

的主特征向量。

CS229 | Machine Learning • Stanford University 系列内容 Awesome AI Courses Notes Cheat Sheets @ ShowMeAI

第二部分无监督学习

/ Unsupervised Learning

- 3 -- 3 -

░▐ 算法

Algorithm

主成分分析（

Principal Component Analysis

，

PCA

）的是一个降维技术，通过最大化

数据方差，将数据投影到

维上：

步骤

：数据标准化，使均值为

，标准差为

。

←

−μ

其中 μ

i=1

 , σ

i=1

−μ



步骤 2：计算

Σ=

i=1



∈

ℝ

n×n

，其为有实特征值的对称阵。

步骤

：计算

的

个正交主特征向量

, . . . , u

∈

ℝ

，即

个最大特征值对应的正

交特征向量。

步骤 4：将数据投影到

span

ℝ

, . . . ,

上。在此过程中，将所有

维空间的方差最

大化。

备注：

Data in feature space[

特征空间的数据

]

→

Find principal components[

寻找主

成分

]

→

Data in principal components space[

主成分空间的数据

]

。

3.2 独立成分分析 / Independent Component Analysis

这是一种寻找数据背后统计独立的信号源组合的技术。

░▐ 假设

Assumptions

s= s

,...,s

为

维源向量，

为独立随机变量。

为混合和非奇异矩阵

[mixing

and non-singular matrix]

。数据

由以下方式产生：

=

目标是要找到分离矩阵 W =

−1

。

░▐

ICA

算法

Bell and Sejnowski ICA algorithm

该算法通过下列步骤，找到分离矩阵

，：

）

x = As = W

−1

的概率为：

p x =

i=1



⋅

2）训练数据为

，i ∈ 1, m }

，sigmoid 函数为

，对数似然函数如下：

l W =

i=1

j=1

log



(g' w

)+logW



因此，随机梯度下降学习规则是，对每个训练样本

，按照下述方式更新

：

←+

1−2 







1−2 







⋮

1−2 

















 −1

CS229 | Machine Learning • Stanford University 系列内容 Awesome AI Courses Notes Cheat Sheets @ ShowMeAI

第二部分无监督学习

/ Unsupervised Learning

- 4 -

Awesome AI Courses Notes Cheat Sheets

Machine Learning

CS229

Deep Learning

CS230

Natural Language Processing

CS224n

Computer Vision

CS231n

Deep Reinforcement Learning

CS285

Neural Networks for NLP

CS11-747

DL for Self-Driving Cars

6.S094

...

Stanford

UC Berkeley

CMU

MIT

...

是 ShowMeAI 资料库的分支系列，覆盖最具知名度的 TOP20+门 AI 课程，旨在为读者和

学习者提供一整套高品质中文速查表，可以点击【这里】查看。

斯坦福大学（ Stanford University ）的 Machine Learning （ CS229 ）和 Deep Learning

（CS230）课程，是本系列的第一批产出。

本批两门课程的速查表由斯坦福大学计算机专业学生 Shervine Amidi 总

结整理。原速查表为英文，可点击【这里】查看

，ShowMeAI

对内容进行

了翻译、校对与编辑排版，整理为当前的中文版本。

有任何建议和反馈，也欢迎通过下方渠道和我们联络 (*￣3￣)

CS229 | Machine Learning @ Stanford University

CS230 | Deep Learning @ Stanford University

监督学习

Supervised Learning

无监督学习

Unsupervised Learning

深度学习

Deep Learning

机器学习技巧和经验

Tips and Tricks

卷积神经网络

CNN

循环神经网络

RNN

深度学习技巧与建议

Tips and Tricks

中文速查表链接

概率统计

Probabilities /Statistics

线性代数与微积分

Linear Algebra and Calculus

GitHub

ShowMeAI

https://github.com/

ShowMeAI-Hub/

ShowMeAI 研究中心

扫码回复”

速查表

”

下载