Math-Shepherd：可验证的过程监督反馈框架

OA0

OA0 是一个探索 AI 的社区

现在注册

已注册用户请登录

BiPFT: Binary Pre-trained Foundation Transformer with Low-rank Estimation of Binarization Residual Polynomials

作者： Xingrun Xing, Li Du, Xinyuan Wang, Xianlin Zeng, Yequan Wang, Zheng Zhang, Jiajun Zhang

提交/修订日期： 2023年12月14日提交，2024年6月20日修订

主题/分类： Machine Learning (cs.LG)

摘要：
预训练基础模型为广泛的下游任务带来了巨大好处，是通往通用人工智能最具潜力的技术之一。然而，为获取最大化的任务无关知识而扩展基础Transformer模型带来了计算挑战，尤其是在移动设备等资源受限的设备上。本文提出了首个用于自然语言理解任务的二进制预训练基础Transformer模型。该模型显著节省了56倍的计算操作和28倍的内存。与以往任务特定的二进制Transformer相比，BiPFT极大地增强了二进制神经网络的学习能力，将BNN推入了预训练时代。得益于海量的预训练数据，我们进一步提出了一种数据驱动的二值化方法。具体来说，我们首先分析了自注意力操作中的二值化误差，并推导了二值化误差的多项式。为了模拟全精度自注意力，我们将二值化误差定义为二值化残差多项式，然后引入低秩估计器来建模这些多项式。大量实验验证了BiPFT的有效性，在GLUE基准测试上平均性能超过任务特定基线15.4%。BiPFT还表现出对超参数变化的鲁棒性增强、优化效率提高以及对下游知识蒸馏的依赖减少，从而能够在各种NLU任务上泛化，并简化了BNN的下游流程。我们的代码和预训练模型已在 https://github.com/Xingrun-Xing/BiPFT 公开。

期刊信息： 本文已被AAAI 2024会议录用 (Proceedings of the AAAI Conference on Artificial Intelligence. 2024, 38(14): 16094-16102)。

论文地址：https://arxiv.org/abs/2312.08937

28 次点击 ∙ 0 人收藏

登录后收藏

0 条回复