Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Models

作者： Chenfei Wu, Shengming Yin, Weizhen Qi, Xiaodong Wang, Zecheng Tang, Nan Duan

提交日期： 2023年3月8日

主题/分类： 计算机视觉与模式识别 (cs.CV)

摘要：
ChatGPT 因其出色的跨领域对话能力和推理能力而备受关注。然而，由于 ChatGPT 是基于语言训练的，它目前无法处理或生成视觉世界的图像。与此同时，视觉基础模型（如 Visual Transformers 或 Stable Diffusion）虽然展现出强大的视觉理解和生成能力，但它们只是特定任务的专家，输入和输出通常是单轮且固定的。

为此，我们构建了一个名为 Visual ChatGPT 的系统，它整合了不同的视觉基础模型，使用户能够通过以下方式与 ChatGPT 交互：
1. 不仅可以发送和接收语言，还可以发送和接收图像。
2. 提供需要多个 AI 模型多步骤协作的复杂视觉问题或视觉编辑指令。
3. 提供反馈并要求修正结果。

我们设计了一系列提示词，将视觉模型的信息注入 ChatGPT，同时考虑了多输入/输出模型以及需要视觉反馈的模型。实验表明，Visual ChatGPT 借助视觉基础模型，为探索 ChatGPT 的视觉角色打开了大门。我们的系统已在 GitHub 上公开。

项目地址： https://github.com/microsoft/visual-chatgpt

论文地址：https://arxiv.org/abs/2303.04671

43 次点击 ∙ 0 人收藏

登录后收藏

0 条回复

Visual ChatGPT：将视觉基础模型接入对话系统的多模态协作框架

Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Models