数据集简介
这是一个用于评估或分析 Gemini 3 Pro Preview 模型在“高推理”任务上性能的数据集。数据集包含了 248 个文本样本,旨在测试模型的高级推理能力。
主要用途
- 评估大语言模型(特别是 Gemini 3 Pro Preview)的复杂推理能力。
- 可能用于模型对比、性能基准测试或相关研究。
数据类型/模态
- 模态:纯文本(Text)
- 格式:JSON
- 规模:共 248 行数据(即 248 个推理样本或问题)。
特点与场景
- 核心特点:专注于“高推理”任务,样本内容可能涉及逻辑推理、多步问题解决、复杂理解等需要深度思考的场景。
- 使用场景:适用于人工智能、自然语言处理领域的研究人员和开发者,用于模型能力评估与测试。