作者: Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, Illia Polosukhin
提交/修订日期: 2017年6月12日提交,2023年8月2日最后修订 (v7)
摘要:
主流的序列转导模型基于复杂的循环神经网络或卷积神经网络,采用编码器-解码器架构。性能最佳的模型还通过注意力机制连接编码器和解码器。我们提出了一种新的简单网络架构——Transformer,它完全基于注意力机制,完全摒弃了循环和卷积。在两个机器翻译任务上的实验表明,这些模型在质量上更优,同时具有更高的可并行性,并且训练所需时间显著减少。我们的模型在WMT 2014英语到德语翻译任务上达到了28.4 BLEU,比现有最佳结果(包括集成模型)提高了超过2 BLEU。在WMT 2014英语到法语翻译任务上,我们的模型在8个GPU上训练3.5天后,建立了新的单模型最先进BLEU分数41.8,这仅是文献中最佳模型训练成本的一小部分。我们通过将其成功应用于英语成分句法分析(包括大量和有限训练数据的情况),证明了Transformer能很好地泛化到其他任务。
主题/分类:
- 主要: 计算与语言 (cs.CL)
- 次要: 机器学习 (cs.LG)
其他信息:
- 论文长度: 15页,5张图
- arXiv标识符: arXiv:1706.03762 [cs.CL]
- DOI: https://doi.org/10.48550/arXiv.1706.03762