OA0
OA0 是一个探索 AI 的社区
现在注册
已注册用户请  登录
OA0  ›  社区  ›  Gemini

Google 发布 Gemini Embedding 2:原生多模态嵌入模型

 
  badgex ·  2026-03-12 00:59:40 · 4 次点击  · 0 条评论  

Google 近日推出 Gemini Embedding 2,这是其首个 原生支持多模态的嵌入模型。目前该模型已经通过 Gemini APIVertex AI 以公测形式开放预览。

与传统嵌入模型通常只处理文本不同,Gemini Embedding 2 可以将 文本、图像、视频、音频和文档 映射到同一个向量空间中。这意味着不同类型的数据可以在同一语义体系下进行检索、分类和匹配,从而实现真正的多模态理解。

简单来说,它可以把各种媒体内容“翻译”成统一的语义向量,使系统能够理解它们之间的关系。例如,一张图片、一段视频和一段文字,如果表达的是同一个主题,它们在向量空间中的位置会非常接近。


支持的多模态输入

Gemini Embedding 2 在输入能力上覆盖了多种常见媒体类型:

  • 文本:支持最多 8192 tokens 的上下文输入
  • 图像:每次请求最多处理 6 张图片,支持 PNG 和 JPEG
  • 视频:支持最长 120 秒 的 MP4 或 MOV 视频
  • 音频:可以直接生成音频嵌入,无需先转写为文本
  • 文档:支持最多 6 页 PDF 文件 的直接嵌入

更重要的是,这些数据类型可以 混合输入。例如一次请求中同时包含文本和图片,模型可以理解两者之间的语义关系。


为什么多模态嵌入很重要

在传统 AI 系统中,不同媒体通常需要不同处理流程。例如:

  • 文本 → 文本嵌入模型
  • 图片 → 图像模型
  • 音频 → 先转写成文本再处理

这种方式不仅复杂,而且会在不同模态之间丢失信息。

Gemini Embedding 2 的思路是 统一语义空间。所有媒体都会被映射成向量,进入同一个语义空间,从而实现跨媒体理解。

例如:

  • 用一段文字搜索相关图片
  • 用一张图片找到相关视频
  • 用语音匹配相关文档

这类能力对于构建多模态应用非常关键。


典型应用场景

多模态嵌入模型可以用于很多 AI 应用,例如:

RAG(检索增强生成)

AI 可以从多种类型的数据源中检索信息,例如:

  • 文档
  • 图片
  • 视频
  • 音频

然后把这些信息作为上下文提供给大模型。

语义搜索

用户可以:

  • 用文字搜索图片
  • 用图片搜索视频
  • 用语音搜索文章

这使搜索系统变得更加自然。

情感分析

多模态输入可以帮助系统同时理解:

  • 语音语调
  • 文本内容
  • 图像表情

从而获得更准确的情绪判断。

数据聚类

不同媒体内容如果表达同一主题,可以被自动归类到同一语义群组。


AI 系统正在走向“多模态原生”

Gemini Embedding 2 代表了一个明显趋势:
AI 系统正在从 单模态处理走向 多模态原生设计

未来的 AI 系统可能不会区分:

  • 文字
  • 图片
  • 视频
  • 音频

它们都会被视为同一种信息表达形式。

当这些数据进入同一个语义空间后,AI 才能更接近人类理解世界的方式——综合多种感知信息来理解现实

对于开发者来说,这也意味着构建多模态应用的门槛将大幅降低。

4 次点击  ∙  0 人收藏  
登录后收藏  
0 条回复
About   ·   Help   ·    
OA0 - Omni AI 0 一个探索 AI 的社区
沪ICP备2024103595号-2
Developed with Cursor