作者: Curt Tigges, Oskar John Hollinsworth, Atticus Geiger, Neel Nanda
提交日期: 2023年10月23日
主题分类: 机器学习 (cs.LG); 人工智能 (cs.AI); 计算与语言 (cs.CL)
摘要:
情感是自然语言文本中一个普遍存在的特征,但情感在大型语言模型(LLMs)内部是如何表示的,仍是一个开放性问题。在本研究中,我们发现,在一系列模型中,情感是以线性方式表示的:激活空间中的一个单一方向,在很大程度上捕捉了跨一系列任务的情感特征,其一端代表积极,另一端代表消极。通过因果干预,我们分离出了这个方向,并证明它在玩具任务和真实世界数据集(如斯坦福情感树库)中都具有因果相关性。通过这个案例研究,我们模拟了对一个单一方向在广泛数据分布上意味着什么的彻底探究。
我们进一步揭示了涉及此方向的机制,强调了少数注意力头和神经元的作用。最后,我们发现了一种我们称之为“总结模式”的现象:情感不仅体现在带有情感色彩的词语上,还会在没有内在情感的中间位置(如标点符号和名称)被额外总结。我们证明,在斯坦福情感树库的零样本分类任务中,当消融情感方向时,高于随机水平的分类准确率会损失76%,其中近一半(36%)是由于仅在逗号位置消融总结的情感方向造成的。