Blending Is All You Need: Cheaper, Better Alternative to Trillion-Parameters LLM

作者： Xiaoding Lu, Zongyi Liu, Adian Liusie, Vyas Raina, Vineet Mudupalli, Yuwen Zhang, William Beauchamp

提交/修订日期： 2024年1月4日提交，2024年1月23日修订 (v3)

主题/分类： Computation and Language (cs.CL); Artificial Intelligence (cs.AI)

摘要：
在对话式人工智能研究中，存在一个明显的趋势，即开发具有更多参数的大型模型，例如 ChatGPT。虽然这些庞大的模型倾向于生成越来越好的聊天回复，但它们需要大量的计算资源和内存。本研究探讨了一个相关问题：一组较小的模型能否协同工作，达到或超越单一大型模型的性能？我们引入了一种称为“混合”（blending）的方法，这是一种简单而有效的集成多个聊天 AI 的方法。我们的实证证据表明，当特定的较小模型被协同混合时，它们有可能在性能上超越或匹配大得多的模型。例如，仅集成三个中等规模（6B/13B 参数）的模型，就可以媲美甚至超越像 ChatGPT（175B+ 参数）这样大得多的模型的性能指标。这一假设在 Chai 研究平台上，通过为期三十天的大规模用户 A/B 测试方法进行了严格验证。研究结果强调了“混合”策略作为一种可行方法的潜力，可以在不相应增加计算需求的情况下提升聊天 AI 的效能。

论文地址：https://arxiv.org/abs/2401.02994

32 次点击 ∙ 0 人收藏

登录后收藏

0 条回复

OpenDevin：面向通用软件开发任务的开源智能体平台

Blending Is All You Need: Cheaper, Better Alternative to Trillion-Parameters LLM