作者: Iz Beltagy, Matthew E. Peters, Arman Cohan
提交/修订日期: 2020年4月10日提交,2020年12月2日修订(版本2)
主题/分类: 计算与语言 (cs.CL)
摘要:
基于 Transformer 的模型由于其自注意力操作的计算复杂度随序列长度呈二次方增长,因此无法处理长序列。为了解决这一限制,我们提出了 Longformer,其注意力机制的计算复杂度与序列长度呈线性关系,从而能够轻松处理数千个标记或更长的文档。Longformer 的注意力机制是标准自注意力的直接替代方案,它结合了局部窗口注意力与任务驱动的全局注意力。遵循先前关于长序列 Transformer 的工作,我们在字符级语言建模任务上评估 Longformer,并在 text8 和 enwik8 数据集上取得了最先进的结果。与大多数先前工作不同,我们还对 Longformer 进行了预训练,并在多种下游任务上进行了微调。我们的预训练 Longformer 在长文档任务上持续优于 RoBERTa,并在 WikiHop 和 TriviaQA 数据集上创造了新的最先进结果。最后,我们介绍了 Longformer-Encoder-Decoder (LED),这是一种支持长文档生成式序列到序列任务的 Longformer 变体,并在 arXiv 摘要数据集上证明了其有效性。
版本说明: 版本2引入了 Longformer-Encoder-Decoder (LED) 模型。