基于上下文信息和排序学习的实体链接方法

摘要

为解决英语命名实体链接问题,提出一种基于上下文信息和排序学习的实体链接方法。首先使用上下文信息对实体指称进行扩充,并在维基百科中检索候选实体列表,然后通过抽取实体指称与候选实体之间的各类特征,利用ListNet排序算法对候选实体列表进行排序,选出Top1的候选实体作为链接结果,最后对未找到候选的实体指称即NIL实体,通过实体聚类算法进行关联链接。

关键词 : 英语实体链接;上下文信息;排序学习;ListNet排序算法;实体聚类

目前较为普遍的实体链接方法是,首先形成候选实体列表,然后对该列表进行排序,最后再进行链接。

基于上下文信息和排序学习的实体链接方法。

优点:

1.采用合理的策略生成候选实体列表

2.对候选实体列表进行高精度的排序

3.NIL实体聚类中,将规则与传统的聚类算法相结合

相关工作

实体链接从最初的基于规则的方法,到基于统计的方法,如今,基于多方法融合的框架成为普遍被研究者接受的系统框架。该框架首先为实体指称生成候选实体列表,再对候选实体列表进行排序。

基于上下文信息和排序学习的实体链接方法

基于上下文信息和排序学习的实体链接方法

预处理 :主要从TAC KBP官方发布的源数据集中提取实体指称信息和实体指称的上下文

实体指称扩充 :利用指称上下文中的同指关系以及从Wikipedia中抽取的词表和从爬虫获取的网络知识对实体指称进行扩充

候选实体检索 : 对每个实体指称,从Wikipedia知识库中检索出对应的候选实体列表

候选排序 :特征抽取和排序学习算法

这篇论文实现方法以及过程都较为普通,论文就不放上来了