原论文标题: Attention Is All You Need
作者: Vaswani 等
领域: 自然语言处理、神经网络
arXiv: 1706.03762
本文提出了一种全新的神经网络架构——Transformer,该结构摒弃了传统的循环神经网络(RNN)和卷积神经网络(CNN),仅依赖 Self-Attention(自注意力机制) 实现序列建模,从而支持高度并行化计算。Transformer 在机器翻译任务上取得了领先性能,并成为后来大规模语言模型(如 BERT、GPT 系列)的基础架构。
Transformer 的提出标志着深度学习序列模型的一次范式变革,它的结构和思想成为现代大规模语言模型(LLM)的核心。