Google近日悄然为其 Gemini Web 版本引入原生视频理解功能,原本仅在 AI Studio 中提供的这一特性,现在用户无需开发环境即可直接在线体验。该功能允许用户上传本地视频或粘贴 YouTube 视频链接,Gemini 将自动分析并理解视频中的内容。
🔍 功能亮点
- 支持本地视频上传:用户可直接上传视频文件至 Gemini Web,进行内容摘要、提问、翻译等交互。
- 原生视频理解能力:Gemini 并非依赖字幕,而是通过模型直接分析视频图像与音频内容,具备更强的语义理解能力。
- YouTube视频支持:通过直接分享 YouTube 链接,Gemini 可提取视频片段并理解其语义,实现对网络视频的快速解析。
- 理解时长限制:目前支持的视频长度大约在 40 分钟至 1 小时之间(对应 1M 上下文 token 限制),适用于内容密集的演讲、访谈、课程等场景。
这一功能的上线标志着 Google 在多模态理解上的进一步推进,也预示着未来 Gemini 有望成为视频内容分析、摘要与智能搜索等任务的有力工具。
参考来源:Google Gemini 官方页面