Ferret: 在任何粒度上指代和定位图像中的任何事物

作者： Haoxuan You, Haotian Zhang, Zhe Gan, Xianzhi Du, Bowen Zhang, Zirui Wang, Liangliang Cao, Shih-Fu Chang, Yinfei Yang

提交日期： 2023年10月11日

主题分类： 计算机视觉与模式识别 (cs.CV); 计算与语言 (cs.CL)

摘要：
我们提出了 Ferret，一种新的多模态大语言模型 (MLLM)，它能够理解图像中任何形状或粒度的空间指代，并准确地定位开放词汇描述。为了在大语言模型范式中统一指代和定位任务，Ferret 采用了一种新颖且强大的混合区域表示方法，该方法将离散坐标和连续特征联合起来表示图像中的一个区域。为了提取多样化区域的连续特征，我们提出了一种空间感知的视觉采样器，擅长处理不同形状之间的稀疏性变化。因此，Ferret 可以接受多样化的区域输入，例如点、边界框和自由形状。为了增强 Ferret 的期望能力，我们构建了 GRIT，一个全面的指代与定位指令微调数据集，包含 110 万个样本，这些样本蕴含丰富的层次化空间知识，并包含 9.5 万个困难负样本以提高模型的鲁棒性。最终得到的模型不仅在经典的指代和定位任务中取得了卓越的性能，而且在基于区域和需要定位的多模态聊天任务中大大超越了现有的 MLLM。我们的评估还显示，模型在描述图像细节的能力上有显著提升，并且在缓解物体幻觉方面有显著改善。代码和数据将在 https://github.com/apple/ml-ferret 提供。

论文地址：https://arxiv.org/abs/2310.07704v1

41 次点击 ∙ 0 人收藏

登录后收藏

0 条回复

Ferret：面向区域级理解的多模态大语言模型

Ferret: 在任何粒度上指代和定位图像中的任何事物