Google 发布 Gemini Embedding 2：原生多模态嵌入模型

OA0

OA0 是一个探索 AI 的社区

现在注册

已注册用户请登录

Google 近日推出 Gemini Embedding 2，这是其首个 原生支持多模态的嵌入模型。目前该模型已经通过 Gemini API 和 Vertex AI 以公测形式开放预览。

与传统嵌入模型通常只处理文本不同，Gemini Embedding 2 可以将 文本、图像、视频、音频和文档 映射到同一个向量空间中。这意味着不同类型的数据可以在同一语义体系下进行检索、分类和匹配，从而实现真正的多模态理解。

简单来说，它可以把各种媒体内容“翻译”成统一的语义向量，使系统能够理解它们之间的关系。例如，一张图片、一段视频和一段文字，如果表达的是同一个主题，它们在向量空间中的位置会非常接近。

支持的多模态输入

Gemini Embedding 2 在输入能力上覆盖了多种常见媒体类型：

更重要的是，这些数据类型可以 混合输入。例如一次请求中同时包含文本和图片，模型可以理解两者之间的语义关系。

在传统 AI 系统中，不同媒体通常需要不同处理流程。例如：

这种方式不仅复杂，而且会在不同模态之间丢失信息。

Gemini Embedding 2 的思路是 统一语义空间。所有媒体都会被映射成向量，进入同一个语义空间，从而实现跨媒体理解。

例如：

这类能力对于构建多模态应用非常关键。

多模态嵌入模型可以用于很多 AI 应用，例如：

RAG（检索增强生成）

AI 可以从多种类型的数据源中检索信息，例如：

然后把这些信息作为上下文提供给大模型。

语义搜索

用户可以：

这使搜索系统变得更加自然。

情感分析

多模态输入可以帮助系统同时理解：

从而获得更准确的情绪判断。

数据聚类

不同媒体内容如果表达同一主题，可以被自动归类到同一语义群组。

Gemini Embedding 2 代表了一个明显趋势：
AI 系统正在从 单模态处理走向 多模态原生设计。

未来的 AI 系统可能不会区分：

它们都会被视为同一种信息表达形式。

当这些数据进入同一个语义空间后，AI 才能更接近人类理解世界的方式——综合多种感知信息来理解现实。

对于开发者来说，这也意味着构建多模态应用的门槛将大幅降低。

40 次点击 ∙ 0 人收藏

登录后收藏

0 条回复