数据集简介
该数据集由 Nomic AI 发布,包含用于训练 GPT4All-J 模型的提示生成数据。数据集主要用于支持开源语言模型的训练与评估。
主要用途
- 训练或微调类 GPT-4 的开源语言模型(如 GPT4All-J)
- 研究提示生成与语言模型响应模式
- 作为对话生成或指令跟随任务的基准数据
数据类型/模态
- 模态:纯文本(text)
- 格式:Parquet 格式
- 内容:提示生成文本数据
规模与统计
- 数据量:约 80.9 万行文本
- 下载量:196 次
- 收藏数:223 次点赞
使用场景
- 开源语言模型的预训练或指令微调
- 提示工程与对话系统研究
- 模型性能对比与基准测试