LMOps 是一个研究计划,专注于构建基于基础模型(尤其是大语言模型和生成式AI模型)的AI产品所需的基础研究和技术。
促进语言模型提示的高级技术。
[论文] 优化文本到图像生成的提示
- 语言模型作为一个提示接口,将用户输入优化为模型偏好的提示。
- 通过强化学习学习一个用于自动提示优化的语言模型。

1) 在GPT中前置(许多)检索到的(长)文档作为上下文。
2) 将上下文学习扩展到许多演示示例。

[论文] 语言模型的可扩展提示
- 可扩展的接口,允许超越自然语言来提示LLMs,以实现细粒度的规范。
- 通过上下文引导的虚构词学习,实现通用可用性。

[论文] 基于参考的推理:大语言模型的无损加速
- LLM的输出通常与某些参考(例如,检索到的文档)有显著重叠。
- LLMA通过从参考中复制文本片段到LLM输入并进行验证,无损地加速LLM推理。
- 适用于检索增强生成和多轮对话等重要LLM场景。
- 无需额外模型即可实现2~3倍的加速。

[论文] GPT为何能进行上下文学习?语言模型作为元优化器秘密执行微调
- 根据演示示例,GPT通过前向计算为上下文学习产生元梯度。ICL通过注意力机制将这些元梯度应用于模型。
- ICL的元优化过程与通过反向传播梯度显式更新模型参数的微调具有对偶视角。
- 我们可以将优化算法(如带动量的SGD)转化为其对应的Transformer架构。

我们正在招聘各个级别的员工(包括全职研究员和实习生)!如果您有兴趣与我们一起从事基础模型(即大规模预训练模型)、通用人工智能、自然语言处理、机器翻译、语音、文档AI和多模态AI的研究,请将您的简历发送至 fuwei@microsoft.com。
本项目遵循源代码根目录下LICENSE文件中找到的许可证。
如需获取预训练模型的帮助或报告问题,请提交GitHub issue。
其他沟通事宜,请联系 Furu Wei (fuwei@microsoft.com)。