作者: Philip Quirke, Fazl Barez
提交日期: 2023年10月19日
最后修订日期: 2024年4月23日
状态: 9页,8图,已被 ICLR 2024 接收
主题分类: 机器学习 (cs.LG); 人工智能 (cs.AI)
摘要:
理解 Transformer 等机器学习模型的内部工作机制对其安全和合乎伦理的使用至关重要。本文对一个经过训练以执行 n 位整数加法的单层 Transformer 模型进行了全面分析。我们的研究结果表明,该模型将任务分解为专用于各个数字的并行流,并针对数字内的不同位置采用不同的算法。此外,我们识别并解释了一种以高损失为特征的罕见情况。通过详尽阐明模型的算法,我们对其功能提供了新的见解。这些发现通过严格的测试和数学建模得到了验证,从而为更广泛的模型理解和可解释性领域做出了贡献。我们的方法为分析更复杂的任务和多层 Transformer 模型打开了大门。