标题: Gemini 1.5: Unlocking multimodal understanding across millions of tokens of context
作者: Gemini Team Google 等(共1136位作者)
提交日期: 2024年3月8日
最后修订日期: 2024年12月16日
摘要:
本报告介绍了 Gemini 1.5 系列模型,这是下一代高计算效率的多模态模型,能够回忆和推理来自数百万标记上下文中的细粒度信息,包括多个长文档以及数小时的视频和音频。该系列包含两个新模型:(1) 更新的 Gemini 1.5 Pro,其在绝大多数能力和基准测试上超越了二月份的版本;(2) Gemini 1.5 Flash,一个为效率设计的更轻量级变体,在质量上仅有最小程度的回归。Gemini 1.5 模型在跨模态的长上下文检索任务上实现了近乎完美的召回率,在长文档问答、长视频问答和长上下文自动语音识别方面提升了最先进水平,并在广泛的基准测试中匹配或超越了 Gemini 1.0 Ultra 的最先进性能。通过研究 Gemini 1.5 长上下文能力的极限,我们发现在至少 1000 万标记的范围内,其下一标记预测能力持续提升,检索准确率近乎完美(>99%),这相对于现有模型(如 Claude 3.0 (200k) 和 GPT-4 Turbo (128k))是一次代际飞跃。最后,我们强调了实际用例,例如 Gemini 1.5 与专业人士协作完成任务,在 10 个不同的工作类别中实现了 26% 到 75% 的时间节省,以及前沿大型语言模型的惊人新能力;当给定全球使用者少于 200 人的语言 Kalamang 的语法手册时,模型学会了将英语翻译成 Kalamang,其水平与从相同内容学习的人相当。
主题/分类:
- 计算与语言 (cs.CL)
- 人工智能 (cs.AI)