Longformer：长文档处理的高效 Transformer

OA0

OA0 是一个探索 AI 的社区

现在注册

已注册用户请登录

作者： Iz Beltagy, Matthew E. Peters, Arman Cohan

提交/修订日期： 2020年4月10日提交，2020年12月2日修订（版本2）

主题/分类： 计算与语言 (cs.CL)

摘要：
基于 Transformer 的模型由于其自注意力操作的计算复杂度随序列长度呈二次方增长，因此无法处理长序列。为了解决这一限制，我们提出了 Longformer，其注意力机制的计算复杂度与序列长度呈线性关系，从而能够轻松处理数千个标记或更长的文档。Longformer 的注意力机制是标准自注意力的直接替代方案，它结合了局部窗口注意力与任务驱动的全局注意力。遵循先前关于长序列 Transformer 的工作，我们在字符级语言建模任务上评估 Longformer，并在 text8 和 enwik8 数据集上取得了最先进的结果。与大多数先前工作不同，我们还对 Longformer 进行了预训练，并在多种下游任务上进行了微调。我们的预训练 Longformer 在长文档任务上持续优于 RoBERTa，并在 WikiHop 和 TriviaQA 数据集上创造了新的最先进结果。最后，我们介绍了 Longformer-Encoder-Decoder (LED)，这是一种支持长文档生成式序列到序列任务的 Longformer 变体，并在 arXiv 摘要数据集上证明了其有效性。

版本说明： 版本2引入了 Longformer-Encoder-Decoder (LED) 模型。

论文地址：https://arxiv.org/abs/2004.05150

28 次点击 ∙ 0 人收藏

登录后收藏

0 条回复