作者: Bashar Alhafni, Go Inoue, Christian Khairallah, Nizar Habash
提交/修订日期: 2023年5月24日提交,2023年11月9日修订
主题分类: 计算与语言 (cs.CL)
状态: 已被 EMNLP 2023 接收
摘要:
语法错误纠正(GEC)在英语中是一个被广泛探索的问题,已有许多模型和数据集。然而,由于数据稀缺和语言复杂性等挑战,针对形态丰富语言的 GEC 研究一直有限。本文首次展示了使用两种新开发的基于 Transformer 的预训练序列到序列模型在阿拉伯语 GEC 上的结果。我们还定义了多类别阿拉伯语语法错误检测(GED)任务,并首次给出了多类别阿拉伯语 GED 的结果。我们证明了在 GEC 模型中使用 GED 信息作为辅助输入,可以提升模型在三个不同体裁数据集上的 GEC 性能。此外,我们还研究了上下文形态预处理对辅助 GEC 系统的效果。我们的模型在两个阿拉伯语 GEC 共享任务数据集上取得了最先进(SOTA)的结果,并在一个新近创建的数据集上建立了强有力的基准。我们公开了我们的代码、数据和预训练模型。