1. Dependency Grammar and Dependency
Structure
与编译器中的解析树类似, NLP 中的解析树是用于分析句子的
句法结构。使用的结构主要有两种类型—短语结构和依存结构。
短语结构文法使用短语结构语法将词组织成嵌套成分。以下章节
将对此进行更详细的说明。我们现在关注依存语法。
句子的依存结构展示了单词依赖于另外一个单词(修饰或者是参
数)。词与词之间的二元非对称关系称为依存关系,描述为从
head(被修饰的主题)用箭头指向 dependent (修饰语)。
一般这些依存关系形成树结构。他们通常用语法关系的名称(主
体,介词宾语,同位语等)。“
Bills on ports and immigration
were submitted by Senator Brownback, Republican of
Kansas.
”依存树的例子如右图所示:
有时,在树的头部增加一个假的 ROOT 节点,这样每个单词都
依存于唯一一个节点。
1.1 Dependency Parsing
依存语法是给定一个输入句子
S
,分析句子的句法依存结构的任
务。依存句法的输出是一棵依存语法树,其中输入句子的单词是
通过依存关系的方式连接。正式地,依存语法问题是创建一个输
入句子的单词
S=
w
0
w
1
...
w
n
(其中 w
0
是 ROOT )到它的依
存语法树的映射图
G
。最近几年提出了很多以依存句法为基础
的的变体,包括基于神经网络的方法,我们将会在后面介绍。
确切地说,在依存语法中有两个子问题:
•
学习:给定用依赖语法图标注的句子的训练集
,创建一
个可以用于解析新句子的解析模型
• 解析:给定解析模型
和句子
,根据
得到
的最优依
存语法图
1.2 Transition-Based Dependency Parsing
Transition-based 依存语法依赖于定义可能转换的状态机,以
创建从输入句到依存句法树的映射。学习问题是创建一个可以根
据转移历史来预测状态机中的下一个转换的模型。分析问题是使
用在学习问题中得到的模型对输入句子构建一个最优的转移序
列。大多数 Transition-based 系统不会使用正式的语法。