Gemini 1.5：解锁跨数百万标记上下文的多模态理解

标题： Gemini 1.5: Unlocking multimodal understanding across millions of tokens of context

作者： Gemini Team Google 等（共1136位作者）

提交日期： 2024年3月8日
最后修订日期： 2024年12月16日

摘要：
本报告介绍了 Gemini 1.5 系列模型，这是下一代高计算效率的多模态模型，能够回忆和推理来自数百万标记上下文中的细粒度信息，包括多个长文档以及数小时的视频和音频。该系列包含两个新模型：(1) 更新的 Gemini 1.5 Pro，其在绝大多数能力和基准测试上超越了二月份的版本；(2) Gemini 1.5 Flash，一个为效率设计的更轻量级变体，在质量上仅有最小程度的回归。Gemini 1.5 模型在跨模态的长上下文检索任务上实现了近乎完美的召回率，在长文档问答、长视频问答和长上下文自动语音识别方面提升了最先进水平，并在广泛的基准测试中匹配或超越了 Gemini 1.0 Ultra 的最先进性能。通过研究 Gemini 1.5 长上下文能力的极限，我们发现在至少 1000 万标记的范围内，其下一标记预测能力持续提升，检索准确率近乎完美（>99%），这相对于现有模型（如 Claude 3.0 (200k) 和 GPT-4 Turbo (128k)）是一次代际飞跃。最后，我们强调了实际用例，例如 Gemini 1.5 与专业人士协作完成任务，在 10 个不同的工作类别中实现了 26% 到 75% 的时间节省，以及前沿大型语言模型的惊人新能力；当给定全球使用者少于 200 人的语言 Kalamang 的语法手册时，模型学会了将英语翻译成 Kalamang，其水平与从相同内容学习的人相当。

主题/分类：
- 计算与语言 (cs.CL)
- 人工智能 (cs.AI)

论文地址：https://arxiv.org/abs/2403.05530

19 次点击 ∙ 0 人收藏

登录后收藏

0 条回复

Gemini 1.5：性能强大的多模态长上下文语言模型

Gemini 1.5：解锁跨数百万标记上下文的多模态理解