思维骨架（SoT）：通过并行化结构显著提升 LLM 推理速度

OA0

OA0 是一个探索 AI 的社区

现在注册

已注册用户请登录

Skeleton-of-Thought: Prompting LLMs for Efficient Parallel Generation

作者： Xuefei Ning, Zinan Lin, Zixuan Zhou, Zifu Wang, Huazhong Yang, Yu Wang

提交/修订日期： 2023年7月28日提交，2024年3月2日修订（v3）

主题/分类： Computation and Language (cs.CL); Artificial Intelligence (cs.AI)

会议信息： 发表于ICLR'24

摘要：
本工作旨在降低大型语言模型（LLMs）的端到端生成延迟。高生成延迟的主要原因之一是几乎所有最先进的LLMs都采用的顺序解码方法。受人类思考和写作过程的启发，本研究提出了Skeleton-of-Thought（SoT）方法。该方法首先引导LLM生成答案的骨架（skeleton），然后通过并行API调用或批量解码来并行完成每个骨架点的内容。SoT不仅在12个LLM上实现了可观的加速，而且还有可能提高多个问题类别上的答案质量。SoT是面向推理效率的数据中心化优化的一次初步尝试，展示了通过显式规划语言答案结构来引出高质量答案的潜力。

论文地址：https://arxiv.org/abs/2307.15337

21 次点击 ∙ 0 人收藏

登录后收藏

0 条回复