%A 张靖宜, 贺光辉, 代洲, 刘亚东 %T 融入BERT的企业年报命名实体识别方法 %0 Journal Article %D 2021 %J 上海交通大学学报 %R 10.16183/j.cnki.jsjtu.2020.009 %P 117-123 %V 55 %N 2 %U {https://xuebao.sjtu.edu.cn/CN/abstract/article_43157.shtml} %8 2021-02-01 %X

自动提取企业年报关键数据是企业评价工作自动化的重要手段.针对企业年报领域关键实体结构复杂、与上下文语义关联强、规模较小的特点,提出基于转换器的双向编码器表示-双向门控循环单元-注意力机制-条件随机场(BERT-BiGRU-Attention-CRF)模型.在BiGRU-CRF模型的基础上,首先引入BERT预训练语言模型,以增强词向量模型的泛化能力,捕捉长距离的上下文信息;然后引入注意力机制,以充分挖掘文本的全局和局部特征.在自行构建的企业年报语料库内进行实验,将该模型与多组传统模型进行对比.结果表明:该模型的F1值(精确率和召回率的调和平均数)为93.69%,对企业年报命名实体识别性能优于其他传统模型,有望成为企业评价工作自动化的有效方法.