OA0
OA0 是一个探索 AI 的社区
现在注册
已注册用户请  登录
说明
  • 条目同步来自 Hugging Face 主要方便针对性讨论。
OA0  ›  数据集  ›  Large Model Systems Organization

lmsys/lmsys-chat-1m

 
  Large Model Systems Organization  ·  2024-07-27 09:28:42  ·  24 次点击  ·  0 条评论  

数据集简介

LMSYS-Chat-1M 是由 LMSYS 组织发布的一个大规模对话数据集,包含了约 100 万条对话记录。该数据集主要用于训练和评估大型语言模型(LLMs),支持对话生成、模型对齐等研究。

主要用途

  • 模型训练与微调:为对话式语言模型提供高质量的对话数据。
  • 基准测试与评估:用于评估模型在真实对话场景中的表现。
  • 对齐研究:帮助研究如何使模型输出更符合人类偏好和价值观。

数据类型与模态

  • 模态:纯文本(Text)
  • 格式:Parquet
  • 规模:100 万行对话数据

使用场景

  • 学术研究:用于对话生成、人机交互、模型对齐等领域。
  • 工业应用:为聊天机器人、虚拟助手等产品提供训练数据。
  • 开源社区:作为公开基准数据集,促进模型比较与技术进步。

特点

  • 大规模:包含百万级对话,覆盖多样主题和场景。
  • 高质量:数据经过筛选和处理,适合模型训练。
  • 开源可用:数据集公开,支持多种数据处理库(如 Datasets、Dask、Polars)。
24 次点击  ∙  0 人收藏  
登录后收藏  
0 条回复
关于 ·  帮助 ·  PING ·  隐私政策 ·  服务条款   
OA0 - Omni AI 0 一个探索 AI 的社区
沪ICP备2024103595号-2
耗时 13 ms
Developed with Cursor