作者: Xingrun Xing, Li Du, Xinyuan Wang, Xianlin Zeng, Yequan Wang, Zheng Zhang, Jiajun Zhang
提交/修订日期: 2023年12月14日提交,2024年6月20日修订
主题/分类: Machine Learning (cs.LG)
摘要:
预训练基础模型为广泛的下游任务带来了巨大好处,是通往通用人工智能最具潜力的技术之一。然而,为获取最大化的任务无关知识而扩展基础Transformer模型带来了计算挑战,尤其是在移动设备等资源受限的设备上。本文提出了首个用于自然语言理解任务的二进制预训练基础Transformer模型。该模型显著节省了56倍的计算操作和28倍的内存。与以往任务特定的二进制Transformer相比,BiPFT极大地增强了二进制神经网络的学习能力,将BNN推入了预训练时代。得益于海量的预训练数据,我们进一步提出了一种数据驱动的二值化方法。具体来说,我们首先分析了自注意力操作中的二值化误差,并推导了二值化误差的多项式。为了模拟全精度自注意力,我们将二值化误差定义为二值化残差多项式,然后引入低秩估计器来建模这些多项式。大量实验验证了BiPFT的有效性,在GLUE基准测试上平均性能超过任务特定基线15.4%。BiPFT还表现出对超参数变化的鲁棒性增强、优化效率提高以及对下游知识蒸馏的依赖减少,从而能够在各种NLU任务上泛化,并简化了BNN的下游流程。我们的代码和预训练模型已在 https://github.com/Xingrun-Xing/BiPFT 公开。
期刊信息: 本文已被AAAI 2024会议录用 (Proceedings of the AAAI Conference on Artificial Intelligence. 2024, 38(14): 16094-16102)。