基于预训练语言模型的语法错误纠正方法(网络首发)

展开
  • 上海财经大学信息管理与工程学院

网络出版日期: 2022-07-11

摘要

自然语言处理中的语法错误纠正(GEC)任务存在着低资源性的问题,学习GEC模型需要耗费大量的标注成本以及训练成本.对此,采用从掩码式序列到序列的预训练语言生成模型(MASS)中迁移学习的方式,充分利用预训练模型已提取的语言特征,在GEC的标注数据上微调模型,结合特定的前处理、后处理方法改善GEC模型的表现,从而提出一种新的GEC系统(MASS-GEC).在两个公开的GEC任务中评估该系统,在有限的资源下,与当前的GEC系统相比,达到了更好的效果.具体地,在CoNLL14数据集上,该系统在强调查准率的指标F0.5上表现分数为57.9;在JFLEG数据集上,MASS-GEC在基于系统输出纠正结果与参考纠正结果n元语法重合度的评估指标GLEU上表现分数为59.1.该方法为GEC任务低资源问题的解决提供了新视角,即从自监督预训练语言模型中,利用适用于GEC任务的文本特征,辅助解决GEC问题.

本文引用格式

韩明月, 王英林 . 基于预训练语言模型的语法错误纠正方法(网络首发)[J]. 上海交通大学学报, 0 : 0 . DOI: 10.16183/j.cnki.jsjtu.2021.079

文章导航

/