作者: Xuefei Ning, Zinan Lin, Zixuan Zhou, Zifu Wang, Huazhong Yang, Yu Wang
提交/修订日期: 2023年7月28日提交,2024年3月2日修订(v3)
主题/分类: Computation and Language (cs.CL); Artificial Intelligence (cs.AI)
会议信息: 发表于ICLR'24
摘要:
本工作旨在降低大型语言模型(LLMs)的端到端生成延迟。高生成延迟的主要原因之一是几乎所有最先进的LLMs都采用的顺序解码方法。受人类思考和写作过程的启发,本研究提出了Skeleton-of-Thought(SoT)方法。该方法首先引导LLM生成答案的骨架(skeleton),然后通过并行API调用或批量解码来并行完成每个骨架点的内容。SoT不仅在12个LLM上实现了可观的加速,而且还有可能提高多个问题类别上的答案质量。SoT是面向推理效率的数据中心化优化的一次初步尝试,展示了通过显式规划语言答案结构来引出高质量答案的潜力。