数据集简介
这是一个由东京工业大学LLM团队发布的合成对话数据集,基于LMSys Chat-1M生成,主要用于语言模型训练与评估。
主要用途
- 语言模型(LLM)的预训练或指令微调
- 对话系统研究与开发
- 模型对齐与安全性评估
数据类型/模态
- 模态:纯文本对话数据
- 类型:合成生成的对话样本
- 结构:模拟真实用户与AI助手的多轮对话
规模与统计
- 数据量:约100万条合成对话(根据名称推断)
- 下载量:756次
- 社区关注度:19次点赞
使用场景
- 模型训练:为开源或研究型LLM提供高质量的合成对话数据
- 基准测试:作为对话生成质量的评估基准
- 学术研究:研究合成数据对模型性能的影响
特点
- 数据完全开放(非门控访问)
- 基于真实对话分布合成,兼顾质量与多样性
- 适用于需要大规模对话数据的LLM训练场景