[3]词向量表示 / Learning Word Representation
在本节中,我们用
V
表示词表,而
V
是它的大小。
3.1 Motivation and Notations
░▐ 向量表征技术 Representation techniques
下表总结了两种主要的词向量表示方式:
░▐ 嵌入矩阵
Embedding matrix
对于给定的词
,嵌入矩阵
是一个将其
1-hot
表示
映射到其嵌入
的矩阵:
=
备注: 可以使用目标词/上下文词似然预估模型来学习嵌入矩阵。
3.2 词嵌入 Word Embeddings
░▐ Word2vec
Word2vec
通过估计给定中心单词和其上下文单词一起出现(中心词被上下文词汇包
围)的可能性来学习单词嵌入。流行模型包括 skip-gram、负采样和 CBOW。
░▐
Skip-gram
skip-gram word2vec
模型是一个监督学习任务模型,它通过给定目标词
预估上下文
词
发生的可能性来学习词嵌入。我们记与
关联的参数为
,概率
|
见下式:
P t|c =
exp θ
t
T
e
c
j=1
V
exp
θ
j
T
e
c
备注: 在 softmax 部分的分母中对整个词汇表求和使该模型的计算成本很高。 CBOW
是另一个 word2vec 模型,它使用周围的词来预测给定的词。
░▐ 负例采样 Negative sampling
它是一组使用逻辑回归的二元分类器,作用是评估给定的上下文和给定的目标词同时出
现的可能性,模型在一组
个负例和 1 个正例的样本集合上进行训练。给定上下文词
和目标词
,预测表示为:
=1|,
=
备注: 这种方法的计算成本比 skip-gram 模型小。