服务器运行python
python xx.py
服务器运行python
python xx.py
pytorch 是一个基于python的科学计算包
code 文件夹下为项目文件
比赛网址: https://biendata.com/competition/ccks_2019_el/
数据集:https://pan.baidu.com/s/1SShtugdAMVf0fdaBowtMiA 提取码:8r80
这是提交的时候代码,自己测试是请先划分出验证集,上述所有代码都是交叉验证有多个模型,很费时间,自己跑的时候跑一折就行
摘要
传统的实体链接任务主要是针对长文档。长文档拥有充分的上下文 信息,能够辅助实体的识别与消歧。相比之下,中文短文本的实体链接存 在很大的挑战。实体链接整个过程包括实体识别和实体消歧两个子任务。 针对实体识别子任务,我们创新性地利用了知识库描述文本的信息来增强 实体识别的性能,提出了 BERT-EntityNameEmbedding(BERT-ENE) 模型。具体地说,首先通过挖掘知识库中实体的描述文本得到实体名字的 向量嵌入,然后通过名称字典匹配技术,得到得到短文本中的候选实体,最 后利用 BERT-ENE 模型对结果进行筛选,完成实体识别的任务。此外,本 文进一步提出了一种将 BERT-ENE 模型与 BERT-CRF 模型相融合的新 方法,相比传统方法识别效果有了显著提升。针对实体消歧子任务,将其 视为二分类问题,通过基于 BERT 的二分类模型对候选实体进行预测,然 后对预测的概率进行排序,进而完成消歧任务。基于本文提出的方法,我们在 CCKS2019 面向中文短文本的实体链指任务中,取得了第一名的成绩。
关键词
实体链接,实体识别,实体消歧,BERT