基于领域图谱的实体链接技术研究

摘要

将文本中识别出来的实体链接到具体的实体信息上,从而实现从字符串到信息的跳转,对许多应用来说至关重要。使用机器学习或深度学习实现链接需要大量的领域数据语料以及标注数据,对于敏感领域比较难实现。文章提出基于领域图谱的实体链接技术,首先融合了字面相似度、文本相似度、同义词集、字符包含等多方面相似性度量特征,其次将文本中的上下文实体在图谱中的关联性纳入链接的候选特征,实现领域实体的高效链接,并有效的解决了特殊领域训练语料难的问题。

关键词 : 实体链接;领域图谱;上下文实体;高效链接

当前的实体链接模型往往只考虑到部分字符上的相似度特征,对于文本中上下文语义信息并没有进行充分考虑

主要贡献:

(1)文章融合了同义词集、字符相似性、包含相似性三方面的相似性度量标准

(2)文章将文本中上下文实体在图谱中的关联性纳入链接的候选特征,充分利用图谱中的实体关联度,能够更精确的实现实体到知识库的链接

(3)文章通过领域图谱中大量的领域实体作为数据来源,充分验证了该方法在领域内的高效性

候选实体集生成

候选实体将通过计算从图谱的实例集合中匹配top N个实体作为候选实体集

实体相似度计算

  • 字面相似度计算 :字面相似度就是指字符串之间的相似程度,主要体现在两个字符串字符之间的最长公共子序列,字符串的相似度计算如下:
    $$S_{lcs}(e_a,e_b)=\cfrac {|LCS(e_a,e_b)|} {|e_a|+|e_b|-|LCS(e_a,e_b)|}$$

$|LCS(e_a,e_b)|$ : 表示实体$e_a$和$e_b$之间的最长公共子序列的长度

  • 文本相似度计算 : 文本相似度通常采用余弦相似度、KL散度、概率模型相似度等,本文采用余弦相似度计算文本相似度,计算如下:
    $$S_{cos}=\cfrac{e_a \bullet e_b}{||e_a| \times |e_b||}$$

$e_a \bullet e_b$ : 表示两个实体在空间中的向量乘积

  • 同义词处理 : 对表征同一个实体的方法进行处理。本文采用配置知识图谱的同义词词典来完成实验,其主要方法包括从外网获取和手动添加

  • 包含字符处理 :包含关系指两个实体的字符之间存在包含与被包含的关系,由于包含关系是一串连续的字符相似,某个实体的字符串是另一个实体的子集

上下文实体分析

传统的文本上下文信息通常只考虑到文本的语义相似度信息,没有结合知识图谱的关联关系去考虑上下文实体在图谱中的关联路径对待链接候选实体的影响

(1)选取待链接实体的上下文实体集,在图谱中链接得到实体集合为:
$$ge=\{ge_1,ge_2,…,ge_i\}$$

(2)通过相似度计算候选实体集合,其在图谱中的链接实体集为:
$$he=\{he_1,he_2,…,he_j\}$$

(3)遍历上下文实体集中的所有实体,计算其到所有候选实体的最短路径的加权值:
$$S_{shortest}(ge,he_j)=\lambda\sum_{i=1}^{j=1}Shortestpath(ge_i,he_j)$$

实验数据集 :领域图谱数据 和实体链接的预标注数据

图谱数据 :主要是用于进行候选实体链接以及计算上下文实体和链接候选实体最短加权路径

预标注数据 :主要用于测试集验证链接效果

实验使用的领域语料:主要来源于环球网、凤凰新闻网、新浪新闻