作者: Shishir G. Patil, Tianjun Zhang, Xin Wang, Joseph E. Gonzalez
提交日期: 2023年5月24日
主题分类: 计算与语言 (cs.CL); 人工智能 (cs.AI)
摘要:
大型语言模型(LLMs)近期取得了令人瞩目的进展,在数学推理和程序合成等多种任务上表现出色。然而,它们通过 API 调用有效使用工具的潜力尚未得到充分发挥。即使对于 GPT-4 这样的当今最先进 LLMs,这仍然是一项具有挑战性的任务,主要原因是它们无法生成准确的输入参数,并且容易产生 API 调用的错误用法(幻觉)。
本文发布了 Gorilla,一个基于 LLaMA 进行微调的模型,其在编写 API 调用方面的性能超越了 GPT-4。当与文档检索器结合时,Gorilla 展现出强大的适应测试时文档变化的能力,支持灵活的用户更新或版本变更。它还显著缓解了直接提示 LLMs 时常见的幻觉问题。
为了评估模型能力,本文引入了 APIBench,一个包含 HuggingFace、TorchHub 和 TensorHub API 的综合数据集。检索系统与 Gorilla 的成功集成,展示了 LLMs 更准确地使用工具、跟上频繁更新的文档,从而提高其输出可靠性和适用性的潜力。
Gorilla 的代码、模型、数据和演示可在 https://gorilla.cs.berkeley.edu 获取。