作者: Chenfei Wu, Shengming Yin, Weizhen Qi, Xiaodong Wang, Zecheng Tang, Nan Duan
提交日期: 2023年3月8日
主题/分类: 计算机视觉与模式识别 (cs.CV)
摘要:
ChatGPT 因其出色的跨领域对话能力和推理能力而备受关注。然而,由于 ChatGPT 是基于语言训练的,它目前无法处理或生成视觉世界的图像。与此同时,视觉基础模型(如 Visual Transformers 或 Stable Diffusion)虽然展现出强大的视觉理解和生成能力,但它们只是特定任务的专家,输入和输出通常是单轮且固定的。
为此,我们构建了一个名为 Visual ChatGPT 的系统,它整合了不同的视觉基础模型,使用户能够通过以下方式与 ChatGPT 交互:
1. 不仅可以发送和接收语言,还可以发送和接收图像。
2. 提供需要多个 AI 模型多步骤协作的复杂视觉问题或视觉编辑指令。
3. 提供反馈并要求修正结果。
我们设计了一系列提示词,将视觉模型的信息注入 ChatGPT,同时考虑了多输入/输出模型以及需要视觉反馈的模型。实验表明,Visual ChatGPT 借助视觉基础模型,为探索 ChatGPT 的视觉角色打开了大门。我们的系统已在 GitHub 上公开。
项目地址: https://github.com/microsoft/visual-chatgpt