CS224n | Natural Language Processing with Deep Learning Stanford University
Lecture Notes: Part II - Word Vectors II: GloVe, Evaluation and Training
Lecture Notes: Part II
Word Vectors II: GloVe, Evaluation and Training
CS224n
RNN LSTM CNN
transformerbert问答要、成、模型
理解等前沿内容。
这组首先训练量的 Glove 模型。然扩展
了我们对向量(词嵌)的讨,看看它是如何通内部
和外部来评估的。我们讨论了以词类比作为一种内在评价技术的
例子,以及它如何被用来调整词嵌入技术。然后我们讨论了训练
模型/任务
网络作为一种自然语言处理任务的模型。
笔记核心词
Global Vectors for Word Representation (GloVe). Intrinsic
and extrinsic evaluations. Effect of hyperparameters on
analogy evaluation tasks. Correlation of human judgment
with word vector distances. Dealing with ambiguity in word
using contexts. Window classification.
课程
全部料和
已整
任意
二维
获取!!
微信公众号
·全套资料
回复 CS224n
底部菜单栏
Bilibili
·课程视频
视频简介
置顶评论
GitHub
·项目代码
阅读 ReadMe
点击超链接
CS224n | Natural Language Processing with Deep Learning Stanford University
Lecture Notes: Part II - Word Vectors II: GloVe, Evaluation and Training
1. Global Vectors for Word Representation
(GloVe)
1.1 Comparison with Previous Methods
是基解( LSAHAL。虽
Skip-Gram CBOW
型通过在局部上下文窗口通过预测来学习词向量。这些模型除了
在单词相似性任务上表现良好外,还展示了捕获复杂语言模式能
力,但未能利用到全局共现统计数据
GloVe
word-word
据。模型生成了包含有意义的子结构的单词向量空间,在词类比
任务上表现非常出色。
1.2 Co-occurrence Matrix
X
表示 word-word 矩阵
X
ij
表示 j出现 i
下文的次数
X
i
=
k
X
ik
为任意
k
出现在
i
的上下文的
P
ij
=P(w
j
∣w
i
)=
X
ij
X
i
j i
概率。
计算这个矩阵需要遍历一次整个语料库获得统计信息。对庞大的
语料库,这样的遍历会产生非常大的计算量,但是这只是一次性
的前期投入成本。
1.3 Least Squares Objective
回想一 Skip-Gram 型,我们使用 softmax 来计算 j出现
在词 i的上下文的概率。
Q
ij
=
exp(u
j
T
v
i
)
w=1
W
e xp(
u
w
T
v
i
)
训练时以在线随机的方式进行,但是隐含的全局交叉熵损失如下
计算:
J=
i∈corpus
j∈context(i)
l og Q
ij
i j i j
相同的值组合起来更有效:
1 Notes info.
课件/Slides
Lecture2, P27-31
视频/Video
Lecture 2, 53:00
GitHub
·代码
实时在线查阅文档
Bilibili·视频
中英字幕课程视频
Stanford University X ShowMeAI
GloVe
最小二乘为目标,预测单词
j
出现在
单词
i
上下文中的概率。
/ Co-occurrence
Matrix
X
word-word 共现矩阵
X
ij
:词
j
出现
i
的上
次数
X
i
=
k
X
ik
:任
k
出现
i
的上下文的次数
P
ij
=P(w
j
∣w
i
)=
X
ij
X
i
j
在词
i
的上下文的概率
CS224n | Natural Language Processing with Deep Learning Stanford University
Lecture Notes: Part II - Word Vectors II: GloVe, Evaluation and Training
J=
i=1
W
j=1
W
X
ij
log Q
ij
其中,共现频率的值是通过共现矩阵 X给定。
Q
对整个词汇的求和的计算量是非常大的。因此,我们使用一个最
小二乘的目标函数,其中 P Q的归一化因子被丢弃了
J
=
i=1
W
j=1
W
X
i
(
P
ij
Q
ij
)
2
P
ij
=X
ij
andQ
ij
=exp u
j
T
v
i
来了个新题,
X
ij
经常是很值,难以化。
个有效的改变是最小化
P
Q
对数的平方误差:
J
=
i=1
W
j=1
W
X
i
(log(
P
ij
)log(
Q
ij
)
)
2
=
i=1
W
j=1
W
X
i
(u
j
T
v
i
log 
X
ij
)
2
X
i
入更一般化的权值函数,我们可以自由地依赖于上下文单词:
J
=
i=1
W
j=1
W
f (X
ij
)(u
j
T
v
i
log X
ij
)
2
1.4 Conclusion
总而言之GloVe模型仅对单词矩阵中的零元训练,从
而有效地利用全局统计信息,并生成具有有意义的子结构向量空
间。给出相同的语料库,词汇,窗口大小和训练时间,它的表现
都优 word2vec地实
度如何,都能获得最佳效果
2. Evaluation of Word Vectors
到目前为止,我们已经讨论了诸 Word2Vec GloVe训练和
发现语义空间中的自然语言词语的潜在向量表示。在这部分,我
们讨论如何量化评估词向量的质量。
课件/Slides
Lecture2, P32-40
视频/Video
Lecture 2, 58:00
GitHub
·代码
实时在线查阅文档
Bilibili·视频
中英字幕课程视频
CS224n | Natural Language Processing with Deep Learning Stanford University
Lecture Notes: Part II - Word Vectors II: GloVe, Evaluation and Training
2.1 Intrinsic Evaluation
词向量的内部评估是对一组由如 Word2Vec GloVe生成的词
量在特定的中间子任务(如词类比)上的评估。这些子任务通常
简单而且计算速度快,从而能够帮助我们理解生成的的词向量。
内部评估通常应该返回给我们一个数值,来表示这些词向量在评
估子任务上的表现。
使
的例子。一个方法是训练一个机器学习系统:
1. 输入词语
2. 将输入词语转换为词向量
3. 对一个复杂的机器学习系统,使用词向量作为输入
4. 将输出的词向量通过系统映射到自然语言词语上。
5. 生成词语作为答案
当然,在训练这样的一个问答系统的过程中,因为它们被用在下
游子系统(例如深度神经网络),我们需要创建最优的词向量表
示。在实际操作中,我们需要 Word2Vec子系统中的许多超
数进行调整(例如词向量的维度)。
虽然最理想的方法是在 Word2Vec系统中的任何参数改变后都
3
数需要很长的时间训练。
在这样的情况下,我们希望能有一个简单的内部评估技术来度量
词向量子系统的好坏。显然的要求是内部评价与最终任务的表现
有正相关关系
2.2 Extrinsic Evaluation
词向量的外部评估是对一组在实际任务中生成的词向量的评估。
这些任务通常复杂而且计算速度慢。对我们上面的例子,允许对
问题答案进行评估的系统是外部评估系统。通常,优化表现不佳
的外部评估系统我们难以确定哪个特定子系统存在错误,这就需
要进一步的内部评估。
Figure 1: The left subsystem
(red) being expensive to train is
modified by substituting with a
simpler subsystem (green) for
intrinsic evaluation. 1
绿
代替内在评估。】
绿
估。
内部评估
对特定的中间任务进行评估
可以很快的计算性能
帮助理解子系
需要和真实的任务正相关来
定有用性
CS224n | Natural Language Processing with Deep Learning Stanford University
Lecture Notes: Part II - Word Vectors II: GloVe, Evaluation and Training
2.3 Intrinsic Evaluation Example: Word Vector
Analogies
一个比较常用的内部评估的方法是词向量的类比。在词向量类比
中,给定以下形式的不完整类比:
a:b::c:?
然后内部评估系统计算词向量的最大余弦相似度:
d=argmax
i
(x
b
x
a
+x
c
)
T
x
i
|x
b
x
a
+
x
c
|
x
b
x
a
=
x
d
x
c
queen-king=actress-actor
希望 x
b
x
a
+
x
c
=x
d
。因确定两个
积的 x
d
似度使
词向量类比的内部评估技术应该小心处理(要考虑到预训练的语
料库的各个方面)。例如,考虑以下的类比形式:

1:


1:
:
2:


2
上图是可能受到具有相同名称的不同城市的语义词向量类比(内
在评估)。在上面很多的例子,美国有很多同名的城市城镇
10 Phoenix Arizona
案。考虑以下类比形式:


1:

1:
:

2:

2
注:词向
词间余弦距离的意义。它们还包含
星”,因为它们都是电子公司,但
兰”,因为不同的原因,诺基亚是
芬兰公司。
注:单词向量转换 2
使 PCA
时,可以看到有趣的结果:相似的
单词聚集在一起。然而,重要的是
要记住,在降维过程中有相当一部
分空间信息丢失了;因此,上面诺
基亚示例中描述的单词之间的复杂
关系可能不会出现。
1
类比内在评价,可能会受到不
同城市同名的影响
CS224n | Natural Language Processing with Deep Learning Stanford University
Lecture Notes: Part II - Word Vectors II: GloVe, Evaluation and Training
(内在评估)。上面很多的例子,这个任务中生成的城市仅仅是
近期的国家首都,可能会受到不同国家在不同时间点拥有不同首
1997 Kazakhstan Almaty
因此,如果我们的语料库过时就会出现问题。
之前的两个例子说明如何使用词向量进行语义测试。我们也可以
使用词向量类似进行语法测试。下面是测试形容词最高级概念的
句法词向量类(内在评价),如下图所示:
类似地,下图的内部评估展示了测试词向量捕获过去时态概念的
能力
2
有不同首都的国家可能会产生语义
词向量类比内在评价
3
形容词概念的句法词向量类
在评价
CS224n | Natural Language Processing with Deep Learning Stanford University
Lecture Notes: Part II - Word Vectors II: GloVe, Evaluation and Training
2.4 Intrinsic Evaluation Tuning Example:
Analogy Evaluations
我们现在探讨使用内在评估系统(如类比系统)来调整的词向量
嵌入(如 Word2Vec GloVe参数来看
看在类比评估任务中,在相同的超参数下,由不同方法创建的词
向量表现效果
根据上表,我们可以看到 3点:
4
GloVe 使
8
表现较好。
2
模型表现的影
5
同模型在使用不同超参数和参数下
的性能数据集
CS224n | Natural Language Processing with Deep Learning Stanford University
Lecture Notes: Part II - Word Vectors II: GloVe, Evaluation and Training
1. 模型的表现高度依赖模型所使用的词向量的模型:
这点是可以预料到的,因为不同的生成词向量方法是基于不同的
特性的(例如共现计数,奇异向量等等)。
2. 语料库更大模型的表现更好
这是因为模型训练的语料越大,模型的表现就会更好。例如,如
果训练的时候没有包含测试的词语,那么词类比会产生错误的结
果。
3. 对于极高或者极低维度的词向量,模型的表现较差:
低维度的词向量不能捕获在语料库中不同词语的意义。这可以被
看作是我们的模型复杂度太低的高偏差问题。
3:上图可以看到增加语料库规模对模型准确度的影响
4:上图可以看到不同超参数对 GloVe模型准确度的影响
“king “queen “man
“woman”使
2
捕获四个单词之间的语义差异,而过高的维度的可能捕获语料库
中无助于泛化的噪声-即所谓的高方差问题。
超高维向量:
直观地说,这些向量似乎会在语料
库中捕获不允许泛化的噪声,即导
Yin On
the Dimensionality of Word
Embedding skip-gram
Glove 对这种过拟合具有鲁棒性。
3 -
何随着数据大小而提高性能
4- GloVe
的精确度如何随向量维数和上下文
窗口大小而变化。
CS224n | Natural Language Processing with Deep Learning Stanford University
Lecture Notes: Part II - Word Vectors II: GloVe, Evaluation and Training
2.5 Intrinsic Evaluation Example: Correlation
Evaluation
另外一个评估词向量质量的简单方法是,让人去给两个词的相似
0-10
向量的余弦相似度进行对比。这已经在包含人为评估的各种数据
集上尝试过。
下图是使用不同的词嵌入技术与不同的人类判断数据集的词向量
相似性之间的相关性
2.6 Further Reading: Dealing With Ambiguity
我们想知道如何处理在不同的自然语言处理使用场景下,用不同
的的词向量来捕获同一个单词在不同场景下的不同用法。例如,
“run”
ImprovingWordRepresentationsViaGlobalContext
AndMultipleWordPrototypes
方法的本质如下:
1. 收集所有现的单词固定大小上下文(例如 5
和后 5 )
2. 使(使
idf 加权)
3. spherical k-means 对这些上下文表示进行聚类
4.
对这个类,来训练对应的词向量。
要对这个问题进行更严谨的处理,可以参考原文。
6使
用不同的嵌入技术和不同的人类判
断数据集的单词相似性之间的相关
性。
3 Notes info.
课件/Slides
Lecture2, P51
视频/Video
Lecture 2, 79:00
GitHub
·代码
实时在线查阅文档
Bilibili·视频
中英字幕课程视频
Stanford University X ShowMeAI
CS224n | Natural Language Processing with Deep Learning Stanford University
Lecture Notes: Part II - Word Vectors II: GloVe, Evaluation and Training
3. Training for Extrinsic Tasks
到目前为止,我们一直都关注于内在任务,并强调其在开发良好
的词向量技术中的重要性。但是大多数实际问题的最终目标是将
词向量结果用于其他的外部任务。接下来会讨论处理外部任务的
方法。
3.1 Problem Formulation
NLP
面,面还是中似地,在名实(NER)给定
上下文和一个中心词,我们想将中心词分类为许多类别之一。对
输入“Jimbought300sharesofAcmeCorp.in2006们希望
有这样的一个分类结果:
[]

ℎ
300
ℎ
[
.]


[2006]

对这类问题,我们一般有以下形式的训练集:
{
()
,
()
}
1
x
(i)
d
y
(i)
C one-hot
量,表示我们希望最终预测的标签(情感,其他词,专有名词,
卖决策等)。
使 SVM 2-D
进行分类,如右图所示。
在一般的机器学习任务中,我们通常固定输入数据和目标标签,
使L-BFGS
NLP
练外部任务时对输入字向量进行再训练。下面我们讨论何时使用
以及为什么要这样做。
3.2 Retraining Word Vectors
正如我们迄今所讨论的那样,我们用于外部评估的词向量是通过
一个简单的内部评估来进行优化并初始化。在许多情况下,这些
预训练的词向量在外部评估中表现良好。但是,这些预训练的词
向量在外部评估中的表现仍然有提高的可能。然而,重新训练存
在着一定的风险。
5可以使用单的线
决策边界对词向量进行分类,如这
2-D 使
logistic 回归和支持向量机等技术
6在这里,们看
词“Telly”、TV”和TV
在再培训前被正确分类“电视”和
中,而“电视”只出现在测试集中
7在这里,们看
TellyTV
被正TV
因为它不在训练集中。
CS224n | Natural Language Processing with Deep Learning Stanford University
Lecture Notes: Part II - Word Vectors II: GloVe, Evaluation and Training
如果我们在外部评估中重新训练词向量,这就需要保证训练集足
Word2Vec
GloVe会生成语义相关的单词,这些单词位于单词空间的同一部
分。
假设预训练向量位于二维空间中,如右图所示。在这里,我们看
到在一些外部分类任务中,单词向量被正确分类。
现在,如果我们因为有限的训练集大小而只对其中两个向量进行
再训练,那么我们在右图中可以看到,其中一个单词被错误分类
了,因为单词向量更新导致边界移动
因此,如果训练数据集很小,就不应该对单词向量进行再训练。
如果培训集很大,再培训可以提高性能。
3.3 Softmax Classication and Regularization
我们考虑使用 Softmax 分类函数,函数形式如下所示:
p(y
j
=1∣x)=
exp(W
j.
x)
c=1
C
e
xp(W
c.
x)
这里我们计算词向 x j率。使用交叉熵损失函数计
算一个样本的损失如下所示
j=1
C
y
j
 log(p(y
j
=1∣x))=
j=1
C
y
j
 log(
exp(W
j.
x)
c=1
C
e
xp(W
c.
x)
)
当然,上述求和是 (C1)零值求和,因为 y
j
仅在单个索
1,这意味 x仅属于 1 个正确的类别。现在我们定义
k
为正
确类别的索引。因此,我们现在可以简化损失函数
−log(
exp(W
k.
x)
c=1
C
e
xp(W
c.
x)
)
然后我们可以扩展为有
N
个单词的损失函数:
i=1
N
l
og(
exp(W
k(i).
x
(i)
)
c=1
C
e
xp(W
c.
x
i
)
)
上面公式的唯一不 k(i)在一个函数,返 x
(i)
对应的每正
确的类的索引
现在我们来估计一下同时训练模型的权值
(W)
和词向量
(x)
时需
要更新的参数的数量。我们知道一个简单的线性决策模型至少需
实现大型
集,应考虑字向量再训练。对于小
数据集,重新训练单词向量可能会
降低性能。
CS224n | Natural Language Processing with Deep Learning Stanford University
Lecture Notes: Part II - Word Vectors II: GloVe, Evaluation and Training
要一个
d
维的词向量输入和生成一
C
个类别的分布。因此更新
们需
Cd
们也
V
的每单词都更向量,那要更
|V|
个词量,每一
的维度是
d
维。因此对一个简单的线性分类模型,总共的参数数
目是
Cd+|V|
θ
J θ =
W.1
W.d
aardvark
zebra
对于一个简单的模型来说,这是相当大的参数量——这样的参数
量很可能会出现过拟合的问题。
为了降低过拟合的风险,我们引入一个正则项,从贝叶斯派的思
想看,这个正则项是对模型的参数加上一个先验分布,让参数变
小(即接近于 0):
=1
(
(
().
()
)
=1
(
.
)
)+
=1
⋅+||⋅
2
如果调整好目标权重
λ
的值,最小化上面的函数将会降低出现很
大的参数值的可能性,同时也提高模型的泛化能力。在我们使用
更多参数更复杂的模型(例如神经网络)时,就更加需要正则化
的思想。
3.4 Window Classification
目前为止,我们主要探讨了使用单个单词向量 x测的外部评估
任务。在现实中,因为自然语言处理的性质,这几乎不会有这样
的任务。在自然语言处理中,常常存在着一词多义的情况,我们
一般要利用词的上下文来判断其不同的意义。例如,如果你要某
“to sanction” “to
sanction”“topermit“topunish
更多的情况下,我们使用一个单词序列作为模型的输入。这个序
列是由中心词向量和上下文词向量组成。上下文中的单词数量也
被称为上下文窗口大小,并根据解决的问题而变化
为了将之前讨论的 Softmax模型修改为使用单词的窗口来进行分
类,我们只需要按照下面形式将 x
(i)
替换为 x
window
(i)
8图是们有一个
2
Paris
是一个地点还是一个名字。
,
,
的窗口会导致在语义测试中更好的
性能。
CS224n | Natural Language Processing with Deep Learning Stanford University
Lecture Notes: Part II - Word Vectors II: GloVe, Evaluation and Training

()
=
(−2)
(−1)
()
(+1)
(+2)
因此,当我们计算单词的损失梯度如下所示,当然需要分配梯度
来更新相应的词向量:

()
=
(−2)
(−1)
()
(+1)
(+2)
当然,梯度将需要分发来更新相应的词向量。
3.5 Non-linear Classifiers
我们现在介绍非线性分类模型,如神经网络。我们看到即使是最
优的线性分类平面,也有许多样例都被错误的分类。这是因为线
性模型在这个数据集上的分类能力有限。
在右图中,我们看到非线性分类模型可以对上面的数据集的样例
有着更好的分类结果,这个简答的例子可以初步的说明我们为什
么需要非线性模型。
4. Suggested Readings
GloVe Global Vectors for Word Representation
此为 Glove原文,已 Lecture Note中详细记录。
Improving Distributional Similarity with Lessons
Learned from Word Embeddings
实际应用中如何获得更好的词向量
Abstract
近年来的研究趋势表明,基于神经网络的词嵌入模型在词相似性
现,词嵌入的性能提高在很大程度上是由于某些系统设计选择和
超参数优化,而不是嵌入算法本身。此外,我们证明这些修改可
的,没有任何一种方法比其他方法具有全局优势。
9在这里,们看
多示例被错误地分类,即使选择了
最佳线性决策边界。这是因为线性
决策边界对此数据集的模型容量有
限。
10
非线性决策边界允许对数据点进行
更好的分类。
CS224n | Natural Language Processing with Deep Learning Stanford University
Lecture Notes: Part II - Word Vectors II: GloVe, Evaluation and Training
Introduction
bag-of-contexts
单词此外word2vec SGNS 隐含
词上下PMI 阵。就是说,其学目标和可的信息
源实际上与传统方法所使用的非常相似。那么其优势来源于什么
呢?
虽然模型和优化的目标函数是主要因素,但是其他因素也会影响
结果
超参数优化:负采样的样本个数,平滑的负采样分布,动态
大小的上下文窗口
在这项工作中,我们将这些超参数显式化,并展示了如何将它们
应用到传统的基于计数器的方法中。为了评估每个超参数对算法
性能的影响,我们进行了实验,比较了四种不同的表示方法,同
时控制了不同的超参数
Practical Recommendations
通常建议为手头的任务调优所有超参数,以及特定于算法的超参
,我们发现它们在我们的设置中工作得很好:
始终使用上下文分布平滑(cds = 0.75)来修改 PMI,并且适
用于 PPMI,SVD SGNS,不断提高性
不要使用 SVD “correctly” (eig = 1) 。使用对称变体之一
SGNS 是健线每个务的
但它表现很差SGNS
训练方法而且在磁空间和内消耗方面(目前)也是
便宜的。
SGNS 适合更多的负样本
对于 SGNS GloVe 值得 w
+c
做实,因为这
失)的。
CS224n | Natural Language Processing with Deep Learning Stanford University
Lecture Notes: Part II - Word Vectors II: GloVe, Evaluation and Training
Conclusion
最近的嵌入方法引入了大量的网络结构以外的设计选择和优化算
法。我们揭示了这些看似微小的变化对单词表示方法的成功有很
,
我们对表示进行适当的比较,并从词嵌入文献中挑战各种优势。
本研揭示控制需要,并将概念
从明显的任务、数据和方法扩展到经常忽略的预处理步骤和超参
,
MikolovPennington ,
代码。本着这种精神,我们也公布我们的代码
Evaluation methods for unsupervised word
embeddings
Abstract
我们介绍了一种无监督嵌入技术的评估方法,该方法可以从文本
中获取有意义的表示。嵌入方法的顺序不同,评价结果也不同,
这就对通常认为只有一个最优向量表示的假设提出了质疑。我们
提供了一种新的评估技术,可以直接通过特定查询比较词嵌入。
这些方法减少了偏差,提供了更大的洞察力,并允许我们通过众
包快速准确地征求数据驱动的相关性判断。
Discussion
超参数优化会导致明显的性能差异。
实际上,不同的算法编码的信息出奇地不同,这些信息可能与我
们想要的用例一致,也可能与我们想要的用例不一致。
例如,我们发现词嵌入将关于词频的信息的编码程度不同,即使
在长度归一化后也是如此。
这个结果令人惊讶
首先,许多算法保留了不同的拦截参数来吸收基于频率的效
果。
其次,我们希望嵌入空间的几何形状主要由语义驱动:频率
相对较小的词应该均匀地分布在空间中,而大量罕见的、特
定的单词应该围绕相关但更频繁的单词聚集。
CS224n | Natural Language Processing with Deep Learning Stanford University
Lecture Notes: Part II - Word Vectors II: GloVe, Evaluation and Training
我们训练了一个逻辑回归模型来预测基于词向量的词频类别。训
线 100
50000 不等值频采样
保标签分布在所有频率上的一致性平衡。我们使用了长度归一化
的嵌入,因为罕见的单词在训练期间更新较少,可能具有更短的
(Turian et al., 2010)
频率下使用五倍交叉验证的平均准确度和标准偏差(1σ)
,
GloVe TSCCA 在接 1000 的词 100%
确性。其他所有嵌入不同,C&W 入的更的词频的准确性
增加了。进一步的调查显示,权重矩阵的方向是随词频阈值改变
的,这表明词频似乎在嵌入空间中以平滑的方式被编码。
GloVe CBOW
,
定,不同的频率预测并不是因为自然语言的内在性质:并不是说
频繁的单词自然只有频繁的邻居。
WordSim-
353 k = 1000
查询其在训练集语料库中频率的排名,平均了所有的查询词。在
我们的实验中,我们发现一个单词的频率和它在最近邻中的排名
C&W
近邻排名(关于一次查询)和其词频在训练集语料库中的排名之
(nn-rank 1000 ·
corpus-rank
0.17
)
值得关注的问题:语言中单词的频率在人类的文字处理过程中也
起着至关重的作用(Cattell, 1886)因此,在实验设计中,我
们需要明确地把词频作为一个因素来考虑。同时,上述结果也表
明,常用的余弦相似度在嵌入空间内的固有任务时,会受到频率
效应的影响。我们认为,进一步的研究应该解决如何更好地衡量
量。
Related Work
Mikolov et al. (2013b)
过在嵌入空间中进行简单的向量运算,可以解决各种句法和语义
类比问题。这与之前的工作不同,之前的工作将类比任务描述为
一个分类问(Turney, 2008)令人惊讶的是,词嵌入似乎捕
到了更复杂的语言特性。Chen 等人(2013)的研究表明,单词
CS224n | Natural Language Processing with Deep Learning Stanford University
Lecture Notes: Part II - Word Vectors II: GloVe, Evaluation and Training
嵌入甚至含了区域(与美)、名别和情性等
信息。
以往的词嵌入评价工作可分为内部评价和外部评价。内在评价通
过直接测量语义关联和几何关联之间的相关性来衡量词向量的质
量,通过术语的库来实Baroni (2014)
内在度量为重点,在各种查询清单和任务上比较词嵌入和分布词
Faruqui and Dyer (2014)
Gaoetal.(2014)
Tsvetkov
(2015)提出了一种新的内在度量方法,该方法可以
更好地关联外部效果。然而,所有这些评估都是在预先收集的清
单上进行的,并且大多局限于本地指标,如相关性
外部评估使用嵌入作为其他任务模型中的特征,例如语义角色标
(Collobert etal., 2011)
(Turianetal.2010)
不太成功(Andreas Klein, 2014)
在主题模型的上下文中,无监督语义建模方面做了更多的工作。
(Chang et al. 2009)
被要求识别插入到给定主题的一组高概率单词中的随机单词。词
嵌入不产生可解释的维度,因此我们不能直接使用这个方法,但
是我们提出了一个基于最近邻居的相关任务。手工评估是昂贵和
耗时的,但其他研究表明,自动化评估可以紧密地模拟人类的直
(Newman et al. 2010)
Conclusion
影响嵌入质量的因素很多。标准的综合评价虽然有用,但不能提
色,而这在以前是不为人知的。词频也会干扰常用的余弦相似性
度量。我们提出了一个新的评估框架,该框架基于嵌入之间的直
接比较,为这些嵌入提供了更精细的分析,并支持简单的众包相
关性判断。我们还提出了一个新的一致性任务,它测量了我们的
现,外部评估虽然有助于突出嵌入性能的特定方面,但不应该用
作通用质量的代理。
CS224n | Natural Language Processing with Deep Learning Stanford University
Lecture Notes: Part II - Word Vectors II: GloVe, Evaluation and Training
机器学习
深度学习
自然语言处
计算机视觉
知识图谱
Machine Learning
Deep Learning
Natural Language Processing
Computer Vision
Knowledge Graphs
Stanford · CS229
Stanford · CS230
Stanford · CS224n
Stanford · CS231n
Stanford · CS520
# 系列内容 Awesome AI Courses Notes Cheatsheets
图机器学习
深度强化学
自动驾驶
Machine Learning with Graphs
Deep Reinforcement Learning
Deep Learning for Self-Driving Cars
Stanford · CS224W
UCBerkeley · CS285
MIT · 6.S094
...
...
...
ShowMeAI 的分盖最名度 TOP20+AI 旨在习者整套
高品质中文学习笔记和速查表。
斯坦(Stanford University) Natural Language Processing with Deep Learning (CS224n)
系列的第三门产出。
课程版本 2019 Winter,核心深(transformerbert问答摘要、文生成)在当(2021 )
业界和研究界依旧是前沿的方法。最新版课程的笔记生产已在规划中,也敬请期待。
笔记内容经由深度加工整合,以 5 个部分构建起完整的CS224n 容世界”,并依托 GitHub 建了汇总
页。快扫描二维码,跳转进入吧!有任何建议和反馈,也欢迎通过下方渠道和我们联络 (*3)~