阿拉伯语语法错误检测与纠正的进展：一项实证研究

作者： Bashar Alhafni, Go Inoue, Christian Khairallah, Nizar Habash

提交/修订日期： 2023年5月24日提交，2023年11月9日修订

主题分类： 计算与语言 (cs.CL)

状态： 已被 EMNLP 2023 接收

摘要：
语法错误纠正（GEC）在英语中是一个被广泛探索的问题，已有许多模型和数据集。然而，由于数据稀缺和语言复杂性等挑战，针对形态丰富语言的 GEC 研究一直有限。本文首次展示了使用两种新开发的基于 Transformer 的预训练序列到序列模型在阿拉伯语 GEC 上的结果。我们还定义了多类别阿拉伯语语法错误检测（GED）任务，并首次给出了多类别阿拉伯语 GED 的结果。我们证明了在 GEC 模型中使用 GED 信息作为辅助输入，可以提升模型在三个不同体裁数据集上的 GEC 性能。此外，我们还研究了上下文形态预处理对辅助 GEC 系统的效果。我们的模型在两个阿拉伯语 GEC 共享任务数据集上取得了最先进（SOTA）的结果，并在一个新近创建的数据集上建立了强有力的基准。我们公开了我们的代码、数据和预训练模型。

论文地址：https://arxiv.org/abs/2305.14734

47 次点击 ∙ 0 人收藏

登录后收藏

0 条回复

Text2SQL by Prompting：利用提示学习提升自然语言到 SQL 生成

阿拉伯语语法错误检测与纠正的进展：一项实证研究