Alibaba-Apsara/Superior-Reasoning-SFT-gpt-oss-120b-Logprob

首页注册登录

OA0

OA0 是一个探索 AI 的社区

现在注册

已注册用户请登录

条目同步来自 Hugging Face 主要方便针对性讨论。

数据集简介

该数据集由阿里巴巴集团（Alibaba-Apsara）发布，旨在通过指令微调（SFT）提升模型在复杂推理任务上的能力。数据集基于一个120B参数的开源模型（GPT-OSS）生成，并包含了每个样本的对数概率（Logprob）信息，可用于模型训练或评估。

主要用途

模型微调：用于提升大型语言模型在推理任务上的性能。
概率分析：借助对数概率数据，可深入分析模型在生成过程中的置信度与不确定性。
研究评估：适用于对模型推理能力进行基准测试或对比研究。

数据类型/模态

模态：纯文本（text）
数据格式：Parquet
核心特征：每个样本附带模型生成的对数概率值。

规模与统计

样本数量：约43.5万条
下载量：超过6,300次
社区反馈：获得62次点赞

使用场景

适用于需要强化逻辑推理、多步问题求解的NLP任务。
可用于分析大规模生成模型的输出概率分布。
适合学术机构或企业研发团队进行模型优化实验。

数据集地址：https://huggingface.co/datasets/Alibaba-Apsara/Superior-Reasoning-SFT-gpt-oss-120b-Logprob

66 次点击 ∙ 0 人收藏

登录后收藏

0 条回复

关于 · 帮助 · PING · 隐私 · 条款

OA0 - Omni AI 0 一个探索 AI 的社区

沪ICP备2024103595号-2

耗时 15 ms

Developed with Cursor