作者: Liang Wang, Nan Yang, Xiaolong Huang, Linjun Yang, Rangan Majumder, Furu Wei
提交/修订日期: 2023年12月31日提交,2024年1月19日修订 (v2)
摘要:
本文提出了一种新颖且简单的方法,仅使用合成数据和少于1000步的训练即可获得高质量的文本嵌入。与现有方法通常依赖于数十亿弱监督文本对的多阶段中间预训练,然后用少量标注数据集进行微调不同,我们的方法不需要构建复杂的训练流程,也不依赖于通常受任务多样性和语言覆盖范围限制的手动收集数据集。我们利用专有的大语言模型(LLMs)为近100种语言中的数十万个文本嵌入任务生成多样化的合成数据。然后,我们使用标准的对比损失在合成数据上对开源的仅解码器LLMs进行微调。实验表明,我们的方法在不使用任何标注数据的情况下,在极具竞争力的文本嵌入基准测试中取得了强大的性能。此外,当使用合成数据和标注数据的混合进行微调时,我们的模型在BEIR和MTEB基准测试中创造了新的最先进结果。
主题/分类:
- 计算与语言 (cs.CL)
- 信息检索 (cs.IR)
备注: 20页,15个表格