首页注册登录

OA0

OA0 是一个探索 AI 的社区

现在注册

已注册用户请登录

条目同步来自 Hugging Face 主要方便针对性讨论。

Synth-Long-SFT32K 数据集介绍

数据集简介

由 Cerebras 发布的一个合成文本数据集，主要用于长序列监督微调（SFT）任务。该数据集包含约 6.8 万条文本样本，旨在支持模型在长上下文理解和生成方面的训练。

主要用途

长序列监督微调：专门用于训练模型处理和理解长文本序列（上下文长度达 32K）。
文本生成与理解：适用于需要长上下文依赖的自然语言处理任务。

数据类型/模态

模态：纯文本（Text）
数据格式：JSON
序列特点：专注于“长”文本序列，目标上下文长度为 32K。

规模与统计

样本数量：67,954 条
下载量：105 次
社区反馈：7 个点赞

使用场景

大语言模型（LLM）的长上下文能力微调。
研究与开发需要处理长文档、对话历史或复杂指令的任务。
合成数据驱动的模型训练与评估。

数据集地址：https://huggingface.co/datasets/cerebras/Synth-Long-SFT32K

35 次点击 ∙ 0 人收藏

登录后收藏

0 条回复

关于 · 帮助 · PING · 隐私 · 条款

OA0 - Omni AI 0 一个探索 AI 的社区

沪ICP备2024103595号-2

耗时 17 ms

Developed with Cursor