新手上路

词法分析 :主要任务是将文本分割为有意义的词语(中文分词),确定每个词语的类别和浅层的歧义消除(词性标注),并且识别出一些较长的专有名词(命名实体识别)

句法分析词法分析只能得到零散的词汇信息,句法分析需要得到句子的主谓宾结构得到语法信息

语义分析 :侧重语义而非语法,包括词义消歧(确定一个词在语境中的含义,而不是简单的词性)、语义角色标注(标注句子中的谓语与其他成分的关系)、语义依存分析(分析句子中词语之间的语义关系)

NLP

由于最近在notebook上学pytorch,之前就觉得notebook来写博客贼棒,然后就想着把pytorch的学习过程给完整的在hexo博客上展示出来,记录一下

jupyter notebookhexo

基于注意力机制的问句实体链接

摘要

问句实体链接不仅需要大量的数据处理和特征选择工作,而且容易形成错误积累,降低链接效果。针对这种情况,文中提出基于注意力机制的编码器-解码器问句实体链接模型。模型使用双向的长短期记忆网络编码问句,经过注意力机制解码,生成对应的实体指称和消歧信息输出,最后链接到知识库实体。在有关汽车领域车系产品问句好热实体数据集上的实验表明,文中模型仅利用较少的上下文信息便可取得良好效果。

关键词 :问句实体链接;注意力机制;编码器-解码器;长短期记忆网络;生成模型

NLP实体链接

简单即是美

1.文字和语言 vs 数字和信息

文字和语言与数学,从产生起原本就有相通性,虽然它们的发展一度分道扬镳,但是最终还是能走到一起。

冷知识 :阿拉伯数字不是阿拉伯人发明的,而是印度人发明的

NLP

基于双词主题模型的半监督实体消歧方法研究

摘要

针对实体上下文信息主题漂移问题,提出一种基于双词主题模型的实体消歧方法。方法考虑到实体在一定语义环境下具有不同的主题,且在同一文档中同时出现的其他实体在一定程度上能够帮助待消歧实体确定所指代内容,利用命名实体构建双词的思想,将协同实体关系融合到主题模型中,并在此基础上利用Wikipedia知识库,进行半监督消歧。

关键词 :实体消歧;Wikipedia;双词主题模型

NLP实体链接

CCKS&百度 2019中文短文本的实体链指 第一名解决方案

code 文件夹下为项目文件
比赛网址: https://biendata.com/competition/ccks_2019_el/
数据集:https://pan.baidu.com/s/1SShtugdAMVf0fdaBowtMiA 提取码:8r80
这是提交的时候代码,自己测试是请先划分出验证集,上述所有代码都是交叉验证有多个模型,很费时间,自己跑的时候跑一折就行

摘要

  传统的实体链接任务主要是针对长文档。长文档拥有充分的上下文 信息,能够辅助实体的识别与消歧。相比之下,中文短文本的实体链接存 在很大的挑战。实体链接整个过程包括实体识别和实体消歧两个子任务。 针对实体识别子任务,我们创新性地利用了知识库描述文本的信息来增强 实体识别的性能,提出了 BERT-EntityNameEmbedding(BERT-ENE) 模型。具体地说,首先通过挖掘知识库中实体的描述文本得到实体名字的 向量嵌入,然后通过名称字典匹配技术,得到得到短文本中的候选实体,最 后利用 BERT-ENE 模型对结果进行筛选,完成实体识别的任务。此外,本 文进一步提出了一种将 BERT-ENE 模型与 BERT-CRF 模型相融合的新 方法,相比传统方法识别效果有了显著提升。针对实体消歧子任务,将其 视为二分类问题,通过基于 BERT 的二分类模型对候选实体进行预测,然 后对预测的概率进行排序,进而完成消歧任务。基于本文提出的方法,我们在 CCKS2019 面向中文短文本的实体链指任务中,取得了第一名的成绩。

关键词

  实体链接,实体识别,实体消歧,BERT

bert

摘要

实体链接是实现军事情报语义理解的关键技术,有助于机器从实体维度自动建立信息之间的关联,为指挥员提供更高效精准的信息服务,提出了一种基于随机游走的实体链接方法。首先,利用实体的描述信息计算得到实体间相似度;然后,基于各实体间的语义关联,生成待链接实体间的关联图,将实体链接问题建模成关联图上的随机游走过程;最后,通过试验表明,该方法与单纯使用相似度函数计算方法相比能有效提升链接效果,修复实体相似度计算的误差,生成更正确的实体链接

关键词 :实体链接; 随机游走;语义关联;相似度计算

NLP实体链接

基于领域图谱的实体链接技术研究

摘要

将文本中识别出来的实体链接到具体的实体信息上,从而实现从字符串到信息的跳转,对许多应用来说至关重要。使用机器学习或深度学习实现链接需要大量的领域数据语料以及标注数据,对于敏感领域比较难实现。文章提出基于领域图谱的实体链接技术,首先融合了字面相似度、文本相似度、同义词集、字符包含等多方面相似性度量特征,其次将文本中的上下文实体在图谱中的关联性纳入链接的候选特征,实现领域实体的高效链接,并有效的解决了特殊领域训练语料难的问题。

关键词 : 实体链接;领域图谱;上下文实体;高效链接

NLP实体链接