基于注意力机制的问句实体链接

基于注意力机制的问句实体链接

摘要

问句实体链接不仅需要大量的数据处理和特征选择工作，而且容易形成错误积累，降低链接效果。针对这种情况，文中提出基于注意力机制的编码器-解码器问句实体链接模型。模型使用双向的长短期记忆网络编码问句，经过注意力机制解码，生成对应的实体指称和消歧信息输出，最后链接到知识库实体。在有关汽车领域车系产品问句好热实体数据集上的实验表明，文中模型仅利用较少的上下文信息便可取得良好效果。

关键词 ：问句实体链接；注意力机制；编码器-解码器；长短期记忆网络；生成模型

问句实体链接是问答系统的一个重要步骤，传统的问句实体链接方法主要通过两个步骤完成，命名实体识别(Named Entity Recognition,NER)和实体链接(Entity Linking)

命名实体识别最初主要是基于规则的方法：隐马尔可夫模型(Hidden Markov Models,HMM)、最大熵马尔可夫模型(Maximum Entropy Markov Models,MEMM)、条件随机场(Conditional Random Fields,CRF)、支持向量机(Support Vector Machines,SVM)、决策树(Decision Tree,DT)和长短期记忆网络-条件随机场(Long Short-Term Memory-Conditional Random Field,LSTM-CRF)等

基于注意力机制(Attention Mechanism,AM) ：通过对输入设置不同的权重，捕获其中的关键对齐信息。

问句和其链接到的实体具有明显的对齐关系，本文将问句实体链接归纳为具有对齐关系的端到端过程，避免传统方法中先进行命名实体识别，再进行实体链接的处理步骤，从而避免其中可能的错误传递累计情况，大幅减少数据处理的工作

基于注意力机制的Encoder-Deconder

Encoder部分：对于输入序列$x=(x_1,x_2,…,x^{T_x}),x_i∈R^m$，$m$为输入字典的大小，采用One-Hot编码时也是每个字向量的维度，$T_x$为输入序列的长度。

通常使用循环神经网络(Recurrent Neural Network,RNN)进行编码处理：$h_t=f(x_t,h_{t-1})$，$h_t∈R^n$表示RNN Encoder中$t$时刻的隐藏状态，$f$表示非线性函数，$n$表示编码器隐藏层单元数量。

本文的Encoder使用双向LSTM(Bidirectional LSTM,Bi-LSTM)作为函数$f$

Decoder部分：AM首先计算第$j$时刻输入$h_j$与第$t$时刻隐藏层状态$s_{t-1}$的对齐关系得分$e_{tj}$:
$$e_{tj}=a(s_{t-1},h_j)=v_a^Ttanh(W_as_{t-1}+U_ah_j)$$

$h_j$的权重$\alpha_{tj}$为：
$$\alpha_{tj}=\cfrac{exp(e_{tj})}{\sum_{k=1}^{T_x}exp(e_{tk})}$$

求出权重$\alpha_{tj}$，即可计算所有Encoder隐藏层输出$h_{j}$的加权和，构成上下文向量$c_t$:
$$c_t=\sum_{j=1}^{T_x}\alpha_{tj}h_j$$

基于注意力机制的问句实体链接

数据预处理阶段：将问句进行去停用词处理，然后在训练集数据上进行字级别的适配，生成字典。

字典的意义：赋予单个字一个唯一的索引值，方便后续模型将输入问句和输出序列转换为字的索引序列。

模型流程图

将问句按字典的索引转换为整数序列，为了减小内存开销，每次取一批的问句转换为One-Hot编码
再使用Bi-LSTM作为编码器，将前向和后向隐藏层的输出提供给AM解码器解码，通过选取最大值的下标索引将解码输出转换为整数序列，在字典中查找得出生成的实体指称，冰去除结束符和占位符
最后直接与知识库实体名和后缀匹配进行实体链接

实验及结果分析

实验数据集：通过网络收集的汽车领域问句和车系实体数据，包含318927条问句，知识库中车系实体共1901种

评价方法：准确率$P$、召回率$R$及$F1$值

实验结果：

小结

基于注意力机制的问句实体链接模型，将问句实体链接抽象为端到端的类似机器翻译问题，避免传统方式先进行命名实体识别，再进行实体链接带来的数据处理繁琐、特征难以提取和选择、错误累计等诸多缺点。不足是内存占用较大，仅能处理问句中只存在一个实体指称的情况，后续研究可结合知识库实体上下文信息，改进编码方式，降低内存开销，改进模型，使之可以处理问句中存在多个实体指称的情况

I'm so cute. Please give me money.

本文作者：先逃跑再说
本文链接：https://wentianhao.github.io/2020/09/21/%E5%9F%BA%E4%BA%8E%E6%B3%A8%E6%84%8F%E5%8A%9B%E6%9C%BA%E5%88%B6%E7%9A%84%E9%97%AE%E5%8F%A5%E5%AE%9E%E4%BD%93%E9%93%BE%E6%8E%A5/
版权声明：本博客所有文章除特别声明外，均默认采用许可协议。