Synth-Long-SFT32K 数据集介绍
数据集简介
由 Cerebras 发布的一个合成文本数据集,主要用于长序列监督微调(SFT)任务。该数据集包含约 6.8 万条文本样本,旨在支持模型在长上下文理解和生成方面的训练。
主要用途
- 长序列监督微调:专门用于训练模型处理和理解长文本序列(上下文长度达 32K)。
- 文本生成与理解:适用于需要长上下文依赖的自然语言处理任务。
数据类型/模态
- 模态:纯文本(Text)
- 数据格式:JSON
- 序列特点:专注于“长”文本序列,目标上下文长度为 32K。
规模与统计
- 样本数量:67,954 条
- 下载量:105 次
- 社区反馈:7 个点赞
使用场景
- 大语言模型(LLM)的长上下文能力微调。
- 研究与开发需要处理长文档、对话历史或复杂指令的任务。
- 合成数据驱动的模型训练与评估。