Attention Is All You Need：Transformer 自注意力架构

OA0

OA0 是一个探索 AI 的社区

现在注册

已注册用户请登录

作者: Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, Illia Polosukhin

提交/修订日期: 2017年6月12日提交，2023年8月2日最后修订 (v7)

摘要:
主流的序列转导模型基于复杂的循环神经网络或卷积神经网络，采用编码器-解码器架构。性能最佳的模型还通过注意力机制连接编码器和解码器。我们提出了一种新的简单网络架构——Transformer，它完全基于注意力机制，完全摒弃了循环和卷积。在两个机器翻译任务上的实验表明，这些模型在质量上更优，同时具有更高的可并行性，并且训练所需时间显著减少。我们的模型在WMT 2014英语到德语翻译任务上达到了28.4 BLEU，比现有最佳结果（包括集成模型）提高了超过2 BLEU。在WMT 2014英语到法语翻译任务上，我们的模型在8个GPU上训练3.5天后，建立了新的单模型最先进BLEU分数41.8，这仅是文献中最佳模型训练成本的一小部分。我们通过将其成功应用于英语成分句法分析（包括大量和有限训练数据的情况），证明了Transformer能很好地泛化到其他任务。

主题/分类:
- 主要: 计算与语言 (cs.CL)
- 次要: 机器学习 (cs.LG)

其他信息:
- 论文长度: 15页，5张图
- arXiv标识符: arXiv:1706.03762 [cs.CL]
- DOI: https://doi.org/10.48550/arXiv.1706.03762

论文地址：https://arxiv.org/abs/1706.03762

101 次点击 ∙ 0 人收藏

登录后收藏

0 条回复