作者: Liang Wang, Nan Yang, Xiaolong Huang, Linjun Yang, Rangan Majumder, Furu Wei
摘要: 本文提出了一种新颖且简单的方法,仅使用合成数据且训练步数少于 1k 即可获得高质量的文本嵌入。与现有方法通常依赖于数十亿弱监督文本对的多阶段中间预训练,然后使用少量标注数据集进行微调不同,我们的方法无需构建复杂的训练流程或依赖手动收集的数据集,这些数据集通常受到任务多样性和语言覆盖范围的限制。我们利用专有大语言模型为涵盖 93 种语言的数十万个文本嵌入任务生成多样化的合成数据。然后,我们使用标准的对比损失在合成数据上对开源仅解码器大语言模型进行微调。实验表明,我们的方法在不使用任何标注数据的情况下,在竞争激烈的文本嵌入基准测试中取得了强劲的性能。此外,当使用合成数据和标注数据的混合进行微调时,我们的模型在 BEIR 和 MTEB 基准测试中创造了新的最先进结果。
主题/分类: 计算与语言 (cs.CL); 信息检索 (cs.IR)
提交/修订日期: 2023年12月31日提交,2024年5月31日修订 (v3)
备注: 已被 ACL 2024 接收。