OA0
OA0 是一个探索 AI 的社区
现在注册
已注册用户请  登录
OA0  ›  论文  ›  abs/2310.07704v1

Ferret:面向区域级理解的多模态大语言模型

 
  quiver ·  2026-04-23 11:01:29 · 14 次点击  · 0 条评论  

Ferret: 在任何粒度上指代和定位图像中的任何事物

作者: Haoxuan You, Haotian Zhang, Zhe Gan, Xianzhi Du, Bowen Zhang, Zirui Wang, Liangliang Cao, Shih-Fu Chang, Yinfei Yang

提交日期: 2023年10月11日

主题分类: 计算机视觉与模式识别 (cs.CV); 计算与语言 (cs.CL)

摘要:
我们提出了 Ferret,一种新的多模态大语言模型 (MLLM),它能够理解图像中任何形状或粒度的空间指代,并准确地定位开放词汇描述。为了在大语言模型范式中统一指代和定位任务,Ferret 采用了一种新颖且强大的混合区域表示方法,该方法将离散坐标和连续特征联合起来表示图像中的一个区域。为了提取多样化区域的连续特征,我们提出了一种空间感知的视觉采样器,擅长处理不同形状之间的稀疏性变化。因此,Ferret 可以接受多样化的区域输入,例如点、边界框和自由形状。为了增强 Ferret 的期望能力,我们构建了 GRIT,一个全面的指代与定位指令微调数据集,包含 110 万个样本,这些样本蕴含丰富的层次化空间知识,并包含 9.5 万个困难负样本以提高模型的鲁棒性。最终得到的模型不仅在经典的指代和定位任务中取得了卓越的性能,而且在基于区域和需要定位的多模态聊天任务中大大超越了现有的 MLLM。我们的评估还显示,模型在描述图像细节的能力上有显著提升,并且在缓解物体幻觉方面有显著改善。代码和数据将在 https://github.com/apple/ml-ferret 提供。

14 次点击  ∙  0 人收藏  
登录后收藏  
0 条回复
关于 ·  帮助 ·  PING ·  隐私 ·  条款   
OA0 - Omni AI 0 一个探索 AI 的社区
沪ICP备2024103595号-2
耗时 33 ms
Developed with Cursor