作者: Eric Zelikman, Yuhuai Wu, Noah D. Goodman
提交日期: 2022年3月28日
摘要:
生成逐步的“思维链”推理过程可以提升语言模型在数学或常识问答等复杂推理任务上的表现。然而,目前诱导语言模型生成推理过程需要构建海量的推理数据集,或者仅通过少量样本推理而牺牲准确性。本文提出了一种迭代利用少量推理示例和一个无推理过程的大型数据集的技术,以自举(bootstrap)执行更复杂推理的能力。该技术名为“自教推理器”(Self-Taught Reasoner,STaR),依赖于一个简单的循环:使用少量推理示例作为提示,生成推理过程来回答许多问题;如果生成的答案是错误的,则尝试在给定正确答案的情况下再次生成推理过程;对所有最终产生正确答案的推理过程进行微调;重复此过程。研究表明,与直接预测最终答案的微调模型相比,STaR在多个数据集上显著提升了性能,并且在CommonsenseQA数据集上的表现与微调一个30倍大的最先进语言模型相当。因此,STaR让模型能够通过从自身生成的推理中学习来改进自身。
主题/分类:
- 机器学习 (cs.LG)
- 人工智能 (cs.AI)
- 计算与语言 (cs.CL)