煤炭工程 ›› 2024, Vol. 56 ›› Issue (2): 206-212.doi: 10. 11799/ ce202402030
刘飞翔,李泽荃,赵嘉良,等
飞翔 Lewis刘,
摘要: 为充分挖掘煤矿安全隐患文本关键知识, 帮助煤矿企业安全管理人员更好的开展隐患排查治理工作, 提出一种基于预训练语言模型的命名实体识别方法。首先定义煤矿安全隐患实体类别, 并采用BIO 标注策略构建了7 个实体类别和15 个实体标签; 然后将收集到的煤矿隐患排查数据进行预处理, 由煤矿安全领域专家人工标注相关实体, 得到1500 条煤矿安全隐患命名实体标准数据集; 最后采用ERNIE 预训练模型对煤矿安全隐患文本词向量进行表征、同时利用BiGRU 结构进行上下文语义特征提取以及CRF 模型进行实体标签解码, 完成煤矿安全隐患命名实体识别研究。实验结果表明: ERNIE-BiGRU-CRF 模型在序列标注任务上的精确率、召回率和F1 值分别为56. 69%、69. 23%和62. 34%, 较于BiLSTM-CRF 基线模型分别提高了6. 85%、13. 74%和9. 83%,并且实体抽取结果与实际标注结果相差不大。另外, 消融实验也验证了BiGRU 层能够更好的捕捉煤矿安全隐患文本上下文语义依赖关系以及CRF 层能够进一步优化标签序列的有效性。
中图分类号: