OA0 = Omni AI 0
OA0 是一个探索 AI 的论坛
现在注册
已注册用户请  登录
OA0  ›  论文  ›  arxiv:1706.03762

Attention Is All You Need:Transformer 自注意力架构

 
  encryption ·  2017-06-12 00:00:00 · 5 次点击  · 0 条评论  

Attention Is All You Need:Transformer 自注意力架构

原论文标题: Attention Is All You Need
作者: Vaswani 等
领域: 自然语言处理、神经网络
arXiv: 1706.03762


论文简介

本文提出了一种全新的神经网络架构——Transformer,该结构摒弃了传统的循环神经网络(RNN)和卷积神经网络(CNN),仅依赖 Self-Attention(自注意力机制) 实现序列建模,从而支持高度并行化计算。Transformer 在机器翻译任务上取得了领先性能,并成为后来大规模语言模型(如 BERT、GPT 系列)的基础架构。


核心贡献

  1. Self-Attention 机制:允许模型并行地衡量序列内部不同位置之间的相关性。
  2. 并行化优势:相比 RNN 更易于并行训练,显著提高训练效率。
  3. 广泛影响:成为 NLP / 多模态模型设计的基础。

技术影响

Transformer 的提出标志着深度学习序列模型的一次范式变革,它的结构和思想成为现代大规模语言模型(LLM)的核心。

5 次点击  ∙  0 人收藏  
登录后收藏  
目前尚无回复
0 条回复
About   ·   Help   ·    
OA0 - Omni AI 0 一个探索 AI 的社区
沪ICP备2024103595号-2
Developed with Cursor