基于词向量的实体链接方法
Journal of Data Acquisition and Processing Vol.32 , No.3 ,May 2017 , pp.604-611
摘要
实体链接任务主要包括命名实体识别、查询扩展、候选实体选择、特征抽取和排序,本文针对查询词的扩展,提出一种基于词向量的扩展方法,利用连续词袋(CBOW)模型训练语料中词语的词向量,然后将距离查询词近的词作为扩展词。词向量从语料中挖掘出词与词之间的语义相关性是对基于规则的查询扩展方法的补充,以此来召回候选实体。在特征抽取时,把文档之间的潜在狄利克雷分布(LDA)的主题相似性作为特征之一。在计算文档相似性时,不再以高频词作为向量的维度,而是以基于词向量的相关词作为向量维度,由此得到文档的语义相似特征。最后利用基于单文档方法的排序学习模型把查询词链接到相应的候选实体。实验结果 $F1$ 值达到0.71
实体链接的方法主要有分类法、概率主题方法、Graph方法和排序法
分类法:把每个候选实体看作一个类别,每个查询词就是一个待分类项,抽取特征后根据SVM进行分类,此方法是哈尔滨工业大学在2012年TAC的实体链接任务中采用的方法。该方法没有考虑文档中的语义信息,只是根据词的共现来进行分类,并且训练数据少,噪声大。
概率主题方法:挖掘隐藏在文本之间的主题关系,来衡量文本之间的相似性。此方法只是单纯根据上下语义来进行实体链接,没有充分利用维基百科的结构化信息,准确率不是很高。
Graph方法:基于文本中实体和维基百科的特点,构造语义网络,通过网络中节点的距离、出度和入度等作为特征来涉及相似度衡量指标,从而实现语义消歧。虽然这种方法有较好的链接效果,然而也存在一些问题,当数据规模比较大时,网络图的存储、训练和计算就会比较繁琐。
传统的排序法:向量空间模型 VSM 抽取实体的上下文作为词袋,然后根据词频-逆向文档频(TF-IDF)中向量空间把上、下文表示成文本向量,计算余弦相似性。
基于条件随机场命名实体识别
系统流程图:
方法:CRF
训练数据:评测任务给定的训练集,利用Standford CoreNLP NER得到数据的句法树。
标记:采用BEIO标记,B表示实体的开始,E表示实体的结束,O表示非实体,I表示实体内部。
选择的特征:词语、词性、词在句法树中的父节点以及和父节点的关系。
查询扩展
在候选实体选择模块中,查询词往往是缩写,于是对缩写进行扩展至关重要,比如,在维基百科中有超过几十个条目的缩写都是“ABC”,但如果将“ABC”扩展为“American Broadcasting Company”,这样在KB知识库中就可以准确的召回候选实体,而过滤其他不相关实体。
基于规则查询扩展
在基于规则进行扩展时,主要使用支撑文档进行扩展,支撑文档即官方给定的出现这个查询词的文档,本文扩展规则:
- 对于人名,若文档中有全称,就把查询词扩展成全称,如“Brown”扩展成“John Brown”
- 对于大写缩写,借助CRF抽取的命名实体在文档中让缩写扩展成全称
- 对于地名的缩写,根据地名、别名缩写词典进行扩展,如“US”扩展成“United States”
基于词向量的查询扩展
由于支撑文档只是出现查询词的背景,或者在文档中查询词只出现一次,于是借用支撑文档进行基于规则的查询扩展可能变得无效。为了能召回比较精确的候选实体,于是本文借用wiki的外部数据进行查询扩展。若不能进行基于规则的扩展,则基于词向量的扩展方法让返回相似度达到0.5以上的实体作为扩展词,此扩展词就作为候选实体来进行链接,以″Detroit″为例,基于词向量的扩展结果有实体″Detroit Red Wings″,″USS Detroit″等,然后在KB中索引这些扩展实体的页面作为候选实体。
基于词向量的查询扩展根据词的上、下文语义进行扩展,是一个基于统计的无监督训练方式,此方法认为相近的词在语义上距离更相近。
Word2vec是一个深度学习模型,以大量文本训练语料作为输入,可以将每个词特征转化为一个K维的实值向量,该向量上进行相似度计算将能挖掘出相似词。
word2vec包括CBOW和Skip gram model 两种模型。
CBOW模型与传统的前向神经网络语言模型类似,不同点在于:
(1) CBOW预测语句中间的词,而不是最后一个词
(2) CBOW去掉了模型计算中最耗时的非线性隐层并且对所有词而言隐层相同,从而有效提高了词向量的训练速度。
候选实体的选择
为了能最大程度的召回正确实体,本文进行索引的查询词是由规则方法进行扩展的查询词和由词向量进行扩展形成的查询词,使用模糊匹配的方式返回候选实体。
特征抽取
本文抽取了LDA的主题特征以及基于词向量的文本相似性特征。
(1)实体之间的信息
查询词和候选实体标题的相关性对实验结果有着重要的影响。查询词与标题的相似性是特征之一,本文使用编辑相似性来度量其相似性,则
L’ 为最小编辑次数,L1,L2分别为字符串的长度
(2)Wiki中的实体E
信息窗Infobox中的信息包括本地名、法定名、昵称以及上下文中的实体,上下文为KB中的文本内容。
(3)实体的类别特征C
类别标签反应的是一个实体的类别。若两个实体表示同一实体,那么其类别一致。本文抽取支撑文档中词的所有能确定类别作为查询词的类别以及候选实体的类别。
(4)类型信息t
类型信息指一个实体的类型,对于命名实体识别出的实体类型包括PER,GPE,ORG。而KB中实体也有相应的实体类型,如UKN,PER,GPE。UKN为不能确定的类型,若实体的类型不是UKN并且实体的类型和查询词的类型不一致则t为0,否则t为1。
(5)基于主题模型的文档相似度
LDA模型是一种对文档集建模的概率主题模型。传统判断两个文档相似性的方法是通过统计两篇文档共同出现的单词,基于TF-IDF的相似性计算方法,这种方法没有考虑到文档的语义相关性,而LDA恰好能表示两篇文档的主题相似性。LDA模型认为一篇文章都是以一定概率选择了某个主题,并从这个主题中以一定概率选择某个词语,这样一个过程得到一篇文档。LAD的原理可以表示为:
给定一系列文档,计算各个文档中每个单词的词频就可以得到“文档-词语”矩阵。主题模型就是通过这个“文档-词语”矩阵进行训练,学习出“词-主题”矩阵和“主题-文档”矩阵。
LDA的工作原理可以表示为 LDA模型认为文档的主题分布和主题的词分布属于LDA分布,文档以多项分布的概率选择一个主题,主题以多项分布的概率选择一个词。然后用主题和词的联合分布来近似估计主题的后验分布,最后训练文档的主题分布,用KL散度来计算文档之间的主题相似性。
KL距离也即相对熵,表示两个概率分布的距离。相似度度量标准KL距离为
(6)基于词向量的文本相似性
词向量进行查询扩展时,对文档的词利用CBOW模型进行词向量训练,然后根据余弦距离得到一个词的近义词或者相关词。传统度量文档之间相似性是基于高频词,但支撑文档只是查询词出现的语料,不能真正的解释查询词的含义,高频词也不能很好的表达查询词的语义信息。
为了能用其他语义共现词来表示查询词的上、下文,本文使用基于词向量的近义词作为查询词的文本向量。
基于单文档排序的LTR模型
抽取的特征能否提高实体链接的准确率是排序学习(Learning to rank,LTR)模型要解决的核心问题。
单文档方法处理对象单一文档,将文档转化为特征向量后,主要将排序问题转化为机器学习中常规的分类或回归问题。查询词与候选实体的排序函数为:
Si : 查询词与实体的编辑相似性
Ei : 实体页面内实体在查询词的支撑文档中出现的次数
Ci : 实体内页面类别在查询词的支撑实体的类别中出现的次数
simi : 支撑文档与候选实体文档的相似性
t : 类型信息,取值0/1
Dkl : 文档之间主题相似度
若Score小于0.6,则设定空实体。再对空的实体进行聚类,使用杰卡德相似系数(JSC)进行度量,即根据各个空实体支撑文档中共现的词个数进行聚类,大于某一阈值,就聚为一类。
杰卡德系数:
实验设计与结果
测试数据:2014年TAC测评中实体链接任务提供的138篇文档,共抽取了5234个命名实体。
评价标准: B’+F1
实验1 : 基于SVM的分类模型,使用实体的上、下文信息作为特征,每一个候选实体为一类,然后使用RBF进行分类
实验1结果分析 :只是简单地使用上、下文信息进行SVM分类,效果不如其他方法
实验2 :使用首选实体的标题以及KB的别名信息来进行实体链接的向量空间模型
实验2结果分析 : 结果虽然不是很理想,但从实验中可以看出,KB节点的标题信息和别名信息对实体链接有着重要作用
实验3 :抽取了半结构化的知识库Wikipedia进行解析,抽取其中的类别、别名、类型和文档之间的LDA主题相似性进行实验
实验3结果分析 :与实验2对比显示加入外部数据库特征以及主题相似性特征的实验在PER、GPE类型的实体方面效果好于实验2
实验4 :本文的LTR模型,最主要的不同在于除了充分利用标题、类别、别名、上下文和LDA等,加入基于词向量的文本相似性特征
实验4结果 :在GPE,ORG类型的实体方法有着显著的提高,并对All-Query的链接也比其他方法好
若没有本文 Issue,您可以使用 Comment 模版新建。