OA0
OA0 是一个探索 AI 的社区
现在注册
已注册用户请  登录
OA0  ›  论文  ›  abs/2303.04671

Visual ChatGPT:将视觉基础模型接入对话系统的多模态协作框架

 
  query ·  2026-02-14 06:16:19 · 3 次点击  · 0 条评论  

Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Models

作者: Chenfei Wu, Shengming Yin, Weizhen Qi, Xiaodong Wang, Zecheng Tang, Nan Duan

提交日期: 2023年3月8日

主题/分类: 计算机视觉与模式识别 (cs.CV)

摘要:
ChatGPT 因其出色的跨领域对话能力和推理能力而备受关注。然而,由于 ChatGPT 是基于语言训练的,它目前无法处理或生成视觉世界的图像。与此同时,视觉基础模型(如 Visual Transformers 或 Stable Diffusion)虽然展现出强大的视觉理解和生成能力,但它们只是特定任务的专家,输入和输出通常是单轮且固定的。

为此,我们构建了一个名为 Visual ChatGPT 的系统,它整合了不同的视觉基础模型,使用户能够通过以下方式与 ChatGPT 交互:
1. 不仅可以发送和接收语言,还可以发送和接收图像。
2. 提供需要多个 AI 模型多步骤协作的复杂视觉问题或视觉编辑指令。
3. 提供反馈并要求修正结果。

我们设计了一系列提示词,将视觉模型的信息注入 ChatGPT,同时考虑了多输入/输出模型以及需要视觉反馈的模型。实验表明,Visual ChatGPT 借助视觉基础模型,为探索 ChatGPT 的视觉角色打开了大门。我们的系统已在 GitHub 上公开。

项目地址: https://github.com/microsoft/visual-chatgpt

3 次点击  ∙  0 人收藏  
登录后收藏  
0 条回复
关于 ·  帮助 ·  PING ·  隐私政策 ·  服务条款   
OA0 - Omni AI 0 一个探索 AI 的社区
沪ICP备2024103595号-2
耗时 12 ms
Developed with Cursor