摘要

实体链接是实现军事情报语义理解的关键技术,有助于机器从实体维度自动建立信息之间的关联,为指挥员提供更高效精准的信息服务,提出了一种基于随机游走的实体链接方法。首先,利用实体的描述信息计算得到实体间相似度;然后,基于各实体间的语义关联,生成待链接实体间的关联图,将实体链接问题建模成关联图上的随机游走过程;最后,通过试验表明,该方法与单纯使用相似度函数计算方法相比能有效提升链接效果,修复实体相似度计算的误差,生成更正确的实体链接

关键词 :实体链接; 随机游走;语义关联;相似度计算

随机游走模型

随机游走 :给定一个图,游走者从某个顶点或一系列顶点开始遍历该图,在任意一个顶点,游走者对于下一步行动有2种选择:以概率1-c随机选择一条关联到当前顶点的边以游走到某个邻居顶点,或以c的概率随机跳转到图中任意一个顶点

整个游走过程可使用下式描述:$r=(1-c)Mr+cq$

$c$ : 游走者在沿边移动和随机跳转之间选择后者的概率

$r$ : 游走后每个顶点被访问到的概率分布向量

$M$ : 图的邻接矩阵归一化后的转移概率矩阵

$q$ : 游走过程中随机跳转到图中各个顶点的概率分布向量

基于随机游走的实体链接模型

基于随机游走的实体链接模型

  • 数据预处理 :利用实体抽取和图像目标识别等多种实体信息抽取技术从多源异构数据中抽取得到的实体信息,可能存在格式上不一致或包含了噪声数据,需在预处理阶段对数据进行归一化
  • 实体相似度计算 :根据实体属性值的数据类型使用不同相似度计算方法来度量它们之间的相似性,再使用聚合函数初始化实体间的相似度矩阵
  • 图模型构建 :根据实体类型,基于相似度确定候选链接单元,将所有候选单元作为关联图中的顶点,再基于各实体间的语义关系,确定候选链接单元,将所有候选单元作为关联图中的顶点,再基于各实体间的语义关系,确定候选链接单元间的关联(即生成关联图中的边)
  • 随机游走 :使用随机游走完成实体链接的目标是通过随机游走确定候选链接单元正确与否的概率。在构建的关联图上执行随机游走算法,稳定后的概率分布就是候选链接单元的后验概率分布
  • 生成链接结果 :根据稳定概率分布按照实体类型构建二部图,再使用稳定婚姻算法(?)生成链接结果