原论文标题: Gemini: A Family of Highly Capable Multimodal Models 机构: Google DeepMind arXiv: 2312.11805
Gemini 是原生多模态大模型,能够统一处理文本、图像、音频与代码。该模型强调跨模态推理能力与工具调用能力。
Gemini 标志着大模型从单模态文本向通用多模态智能系统迈进。