基于双词主题模型的半监督实体消歧方法研究

摘要

针对实体上下文信息主题漂移问题,提出一种基于双词主题模型的实体消歧方法。方法考虑到实体在一定语义环境下具有不同的主题,且在同一文档中同时出现的其他实体在一定程度上能够帮助待消歧实体确定所指代内容,利用命名实体构建双词的思想,将协同实体关系融合到主题模型中,并在此基础上利用Wikipedia知识库,进行半监督消歧。

关键词 :实体消歧;Wikipedia;双词主题模型

现有研究在对实体协同作用的分析时,并未考虑到随着实体主题迭代出现的主题漂移现象,从而导致主题模型的精度降低

本文针对全局主题信息漂移问题,采用双词主题模型(Biterm Topic Modeling,BTM),结合Wikipedia知识库中的实体页面,提出基于BTM的半监督命名实体消歧算法。该算法利用Wikipedia实体摘要信息(实体页面),构建双词集合并赋予实体主题标签,且保证双词中至少有一个为实体词,有效降低主题漂移现象,提高主题模型的精度,从而改善实体消歧效果。

BTM主题模型

BTM是一种短文本主题概率生成模型。该模型针对短文本主题模型中出现的数据稀疏的问题,通过建立共现词组合(双词)来改进传统的LDA主题模型,提高主题中词聚合程度,有效改善短文本中主题模型的性能

双词 :同一文本中同时出现的无序词对。

核心思想 :两个词共同出现的频率越高,则双词属于同一个主题的可能性越大。

模型假设 :双词中的每个词都独立的从一个主题中生成,且该主题从一个全局语料库的主题分布中生成

消歧算法模型

双词模型通过构建词对(例如:词“哥伦布”可以表示航海家、城市、演员等,若不利用上下文信息,很难确定指代的实体,如果文本中词“哥伦布”附近出现词“海洋”/“船只”,则基本可以确定指称项“哥伦布”表示航海家哥伦布),首先将上下文信息以一种词联合的表示方法联系在一起,然后通过多个词对表达文本的主题信息,使之更加全面准确的表达上下文信息,从而减小主题偏移影响。

实体词作为BTM双词模型的一个词,文本中其他名词或名词短语作为另一个词

模型框架

半监督实体消歧算法 :实体双词主题模型(Entity-Biterm Topic Modeling,EBTM),通过构建<实体,名词(或实体)>词对,为每个词对分配一个主题,最终得到词对中实体的主题。

模型框架

首先为每个Wiki实体页面中分配一个单独的主题(将该主题看作一个实体标签),即对Wiki页面中的每个共现词对标记该实体标签,进而通过对测试文本中待消歧实体进行实体标注的方式,确定候选实体

半监督算法

模型分为训练阶段和标注阶段

训练阶段 :收集Wiki页面集用$T$表示,对该页面中的词进行Gibbs采样,得到页面的词对集合,并为每个集合分配一个单独的主题$z_T$(实体标签),即$z_T$表示Wiki页面$T$中所有共现词对的主题分布

标注阶段 :测试文本集设为$D$,采用Gibbs采样算法对$T∪D$中的共现词对进行采样,并且对$T$词对的主题分布保持不变,只对$D$中的共现词对进行Gibbs采样。


算法1 EBTM半监督消歧算法

Input : Wiki页面集T、测试文本集D、带词注释的Wikipedia页面$\gamma$

Output :文本集$D$中每个$e_i$对应的实体标签

训练阶段 :对每个Wiki页面中的词进行Gibbs sampling,得到词对集合,并为该集合分配一个单独的主题(实体标签)

标注阶段 :

  1. 对文本集D中每个出现词对:

    共现词对出现在$T$中:对词对保持$z_T$主题分布;

    共现词对未出现在$T$中:统计$\gamma$中两个先验观察项;

    进行增量Gibbs sampling,更新$z_D$;

  2. 对每个包含实体$e_i$的词对:

    计算其分配到各个主题的个数$|w_i^e →k|$;

    得到实体$e_i$的主题:
    $$z_{w_i}^e=k,where max|w_i^e→k|$$

3.确定D中每个实体$e_i$对应的候选实体

实验

数据和预处理

Wikipedia页面是大多数学者使用的公共数据集,广泛应用于关系抽取、实体消歧等研究领域,本文采用2011年6月23日对应的Wikipedia中文数据资源:zhwiki-latest-pages-articles.xml。

随机选取了五个主题:“人工智能、数据挖掘”、“素质教育、高等教育”、“体育运动”、“智能手机、安卓、苹果手机”、“流行音乐”,并在对应的三千多篇文章中随机抽取800篇文章作为本文数据,其中包含词总共1w+,实体3k+,且每篇文章平均实体名次数为8,可认定实验数据为短文本。

实验和分析

评价指标

recall : 召回率

precision : 准确率

实验对比

1.主题个数对比分析

仿真参数

该算法对主题数目的敏感度较低,使用性好

2.不同算法性能对比分析

不同算法性能实验结果

3.算法模型的主题分布

主题词对分布

结论

本文采用双词主题模型,将协同实体关系融合到主题模型中提出基于BTM的半监督实体消歧模型,通过将词对中第一个词选择为共现协同实体,有效的减小了LDA 主题模型中主题偏移现象,提高了命名实体消歧准确度. 在利用维基百科实体页面资源时,将实体页面注释信息看作偏置观察量,更新到Gibbs 采样过程中,使得EBTM 模型提高了准确度。

本文还具有一定的局限性,在面对文章大小长短不一的自由文本时,BTM 模型性能并不比LDA 模型更加优越,因此下一步计划设计更加复杂的主题模型,例如加入层次语义图关系、远程监督等,提高语义分析准确度,从而提高实体消歧准确度。