Google 近日推出 Gemini Embedding 2,这是其首个 原生支持多模态的嵌入模型。目前该模型已经通过 Gemini API 和 Vertex AI 以公测形式开放预览。
与传统嵌入模型通常只处理文本不同,Gemini Embedding 2 可以将 文本、图像、视频、音频和文档 映射到同一个向量空间中。这意味着不同类型的数据可以在同一语义体系下进行检索、分类和匹配,从而实现真正的多模态理解。
简单来说,它可以把各种媒体内容“翻译”成统一的语义向量,使系统能够理解它们之间的关系。例如,一张图片、一段视频和一段文字,如果表达的是同一个主题,它们在向量空间中的位置会非常接近。
Gemini Embedding 2 在输入能力上覆盖了多种常见媒体类型:
更重要的是,这些数据类型可以 混合输入。例如一次请求中同时包含文本和图片,模型可以理解两者之间的语义关系。
在传统 AI 系统中,不同媒体通常需要不同处理流程。例如:
这种方式不仅复杂,而且会在不同模态之间丢失信息。
Gemini Embedding 2 的思路是 统一语义空间。所有媒体都会被映射成向量,进入同一个语义空间,从而实现跨媒体理解。
例如:
这类能力对于构建多模态应用非常关键。
多模态嵌入模型可以用于很多 AI 应用,例如:
RAG(检索增强生成)
AI 可以从多种类型的数据源中检索信息,例如:
然后把这些信息作为上下文提供给大模型。
语义搜索
用户可以:
这使搜索系统变得更加自然。
情感分析
多模态输入可以帮助系统同时理解:
从而获得更准确的情绪判断。
数据聚类
不同媒体内容如果表达同一主题,可以被自动归类到同一语义群组。
Gemini Embedding 2 代表了一个明显趋势:
AI 系统正在从 单模态处理走向 多模态原生设计。
未来的 AI 系统可能不会区分:
它们都会被视为同一种信息表达形式。
当这些数据进入同一个语义空间后,AI 才能更接近人类理解世界的方式——综合多种感知信息来理解现实。
对于开发者来说,这也意味着构建多模态应用的门槛将大幅降低。