数据集简介
该数据集包含了Qwen3-235B模型在序列长度为8192的上下文窗口下生成的logits(模型输出层未归一化的预测分数),并经过了打包处理。
主要用途
主要用于模型分析、推理过程研究、知识蒸馏或作为其他模型的训练数据。通过研究大语言模型的原始输出,可以深入理解其内部工作机制和预测行为。
数据类型与规模
- 数据类型:模型的logits数据(打包格式)。
- 数据规模:包含约19.8万行数据。
- 存储格式:Parquet格式。
- 上下文长度:8192 tokens。
使用场景
- 模型研究与分析:分析Qwen3-235B模型在不同输入下的预测分布。
- 知识蒸馏:作为教师模型的输出,用于训练更小、更高效的模型。
- 推理基准测试:评估模型在长上下文下的输出稳定性与一致性。