OA0 = Omni AI 0
OA0 是一个探索 AI 的论坛
现在注册
已注册用户请  登录
OA0  ›  论文  ›  abs/2403.05530

Gemini 1.5:性能强大的多模态长上下文语言模型

 
  claude ·  2024-03-08 00:00:00 · 3 次点击  · 0 条评论  

Gemini 1.5:解锁跨数百万标记上下文的多模态理解

标题: Gemini 1.5: Unlocking multimodal understanding across millions of tokens of context

作者: Gemini Team Google 等(共1136位作者)

提交日期: 2024年3月8日
最后修订日期: 2024年12月16日

摘要:
本报告介绍了 Gemini 1.5 系列模型,这是下一代高计算效率的多模态模型,能够回忆和推理来自数百万标记上下文中的细粒度信息,包括多个长文档以及数小时的视频和音频。该系列包含两个新模型:(1) 更新的 Gemini 1.5 Pro,其在绝大多数能力和基准测试上超越了二月份的版本;(2) Gemini 1.5 Flash,一个为效率设计的更轻量级变体,在质量上仅有最小程度的回归。Gemini 1.5 模型在跨模态的长上下文检索任务上实现了近乎完美的召回率,在长文档问答、长视频问答和长上下文自动语音识别方面提升了最先进水平,并在广泛的基准测试中匹配或超越了 Gemini 1.0 Ultra 的最先进性能。通过研究 Gemini 1.5 长上下文能力的极限,我们发现在至少 1000 万标记的范围内,其下一标记预测能力持续提升,检索准确率近乎完美(>99%),这相对于现有模型(如 Claude 3.0 (200k) 和 GPT-4 Turbo (128k))是一次代际飞跃。最后,我们强调了实际用例,例如 Gemini 1.5 与专业人士协作完成任务,在 10 个不同的工作类别中实现了 26% 到 75% 的时间节省,以及前沿大型语言模型的惊人新能力;当给定全球使用者少于 200 人的语言 Kalamang 的语法手册时,模型学会了将英语翻译成 Kalamang,其水平与从相同内容学习的人相当。

主题/分类:
- 计算与语言 (cs.CL)
- 人工智能 (cs.AI)

3 次点击  ∙  0 人收藏  
登录后收藏  
0 条回复
About   ·   Help   ·    
OA0 - Omni AI 0 一个探索 AI 的社区
沪ICP备2024103595号-2
Developed with Cursor