作者: Timo Schick, Jane Dwivedi-Yu, Roberto Dessì, Roberta Raileanu, Maria Lomeli, Luke Zettlemoyer, Nicola Cancedda, Thomas Scialom
提交日期: 2023年2月9日
主题/分类: Computation and Language (cs.CL)
摘要:
语言模型(LMs)展现出仅需少量示例或文本指令即可解决新任务的卓越能力,尤其是在大规模模型上。然而,矛盾的是,它们在诸如算术或事实查询等基础功能上却表现不佳,而这些功能是更简单、更小的模型所擅长的。本文表明,语言模型可以通过简单的API自学使用外部工具,从而兼得两者之长。我们提出了Toolformer,这是一个经过训练的模型,能够决定调用哪个API、何时调用、传递什么参数以及如何将结果最佳地整合到未来的token预测中。这一过程以自监督的方式进行,每个API仅需少量演示示例。我们整合了一系列工具,包括计算器、问答系统、两种不同的搜索引擎、翻译系统和日历。Toolformer在各种下游任务上实现了显著提升的零样本性能,其表现通常可与更大的模型相媲美,同时不牺牲其核心的语言建模能力。