我们训练了一个逻辑回归模型来预测基于词向量的词频类别。训
练线性分类器将单词分类为常见或罕见类别,阈值从 100 到
50000 不等。在每个阈值频率下,我们对训练集进行采样以确
保标签分布在所有频率上的一致性平衡。我们使用了长度归一化
的嵌入,因为罕见的单词在训练期间更新较少,可能具有更短的
向量(Turian et al., 2010)。在右图中,我们报告了在每个阈值
频率下使用五倍交叉验证的平均准确度和标准偏差(1σ)。
所有单词嵌入都比随机的好,这表明它们包含一些频率信息。
GloVe 和 TSCCA 在接近 1000 的词频上达到近 100%的准
确性。与其他所有嵌入不同,C&W 嵌入的更大的词频的准确性
增加了。进一步的调查显示,权重矩阵的方向是随词频阈值改变
的,这表明词频似乎在嵌入空间中以平滑的方式被编码。
虽然 GloVe 和 CBOW 是内在任务上最佳的两种嵌入,但它
们在其编码的频率信息量上有很大的差异。因此,我们可以断
定,不同的频率预测并不是因为自然语言的内在性质:并不是说
频繁的单词自然只有频繁的邻居。
嵌入空间中的词频信息也会影响词的相似性。对于 WordSim-
353 数据集,我们查询了 k = 1000 个最近邻居。然后,我们
查询其在训练集语料库中频率的排名,平均了所有的查询词。在
我们的实验中,我们发现一个单词的频率和它在最近邻中的排名
位置有很强的相关性。右图显示了 C&W 词嵌入中一个词的最
近邻排名(关于一次查询)和其词频在训练集语料库中的排名之
间的幂律关系 (nn-rank ∼ 1000 ·
corpus-rank
0.17
)。这是一个
值得关注的问题:语言中单词的频率在人类的文字处理过程中也
起着至关重要的作用(Cattell, 1886)。因此,在实验设计中,我
们需要明确地把词频作为一个因素来考虑。同时,上述结果也表
明,常用的余弦相似度在嵌入空间内的固有任务时,会受到频率
效应的影响。我们认为,进一步的研究应该解决如何更好地衡量
词与嵌入空间之间的语言关系的问题,例如通过学习自定义度
量。
Related Work
Mikolov et al. (2013b) 说明嵌入空间存在特定的语言规律。通
过在嵌入空间中进行简单的向量运算,可以解决各种句法和语义
类比问题。这与之前的工作不同,之前的工作将类比任务描述为
一个分类问题(Turney, 2008)。令人惊讶的是,词嵌入似乎捕捉
到了更复杂的语言特性。Chen 等人(2013)的研究表明,单词