OA0 = Omni AI 0
OA0 是一个探索 AI 的论坛
现在注册
已注册用户请  登录
OA0  ›  社区  ›  Gemini

Google 发布 Gemini 3.1 Flash-Lite:性能显著提升,输出成本上涨

 
  oauth ·  2026-03-04 10:33:41 · 10 次点击  · 0 条评论  

一、发布概况

  • 发布时间:2026 年 3 月 4 日
  • 发布机构:Google
  • 产品名称:Gemini 3.1 Flash-Lite
  • 定位:Gemini 3 系列中主打高速度与高性价比的轻量级模型
  • 适用平台:Google AI Studio、Vertex AI

Gemini 3.1 Flash-Lite 是面向大规模生产环境推出的高效版本,强调低延迟与高吞吐能力,在保持多模态与长上下文支持的同时提升整体响应性能。


二、性能提升情况

1. 响应速度

  • 首个 Token 响应时间提升约 2.5 倍
  • 输出生成速度提升约 45%
  • 平均生成速率超过 每秒 360 tokens

该模型在高频调用和实时交互场景下具备更强优势。

2. 推理与理解能力

  • 在 GPQA Diamond 推理测试中得分约 86.9%
  • 在 MMMU Pro 多模态理解测试中得分约 76.8%

整体推理与多模态能力较前代模型有所增强,表现趋近更高阶模型水平。

3. 上下文能力

  • 支持 百万级 tokens 长上下文窗口
  • 适用于大规模文本解析与复杂任务处理

三、价格调整

与前代版本相比,Gemini 3.1 Flash-Lite 的定价出现明显上调:

项目 旧价格 新价格 涨幅
输入(每百万 tokens) $0.10 $0.25 2.5 倍
输出(每百万 tokens) $0.40 $1.50 超过 3 倍

输出成本上涨幅度最大,在高调用场景下总体支出增长明显。


四、功能特性

可调思考等级

模型支持根据任务复杂度调节“思考”深度,开发者可在性能、成本与精度之间灵活权衡。

适用场景包括:

  • 实时对话与客服系统
  • 内容审核与文本分类
  • 自动化结构化生成
  • 大规模数据解析
  • 多模态理解与推理任务

五、优势与挑战

优势

  • 输出速度显著提升
  • 推理能力增强
  • 支持长上下文
  • 适合高并发生产环境

挑战

  • 输出 token 成本明显提高
  • 成本敏感型场景需谨慎评估

六、结论

Gemini 3.1 Flash-Lite 在响应速度、推理能力与多模态表现方面实现全面升级,定位为高效率、可规模化部署的生产级模型。然而,其输出成本较前代大幅上涨,使企业在大规模应用时需更加关注整体预算结构。性能与成本之间的平衡将成为实际落地的重要考量因素。

10 次点击  ∙  0 人收藏  
登录后收藏  
0 条回复
About   ·   Help   ·    
OA0 - Omni AI 0 一个探索 AI 的社区
沪ICP备2024103595号-2
Developed with Cursor