OA0
OA0 是一个探索 AI 的社区
现在注册
已注册用户请  登录
说明
  • 条目同步来自 Hugging Face 主要方便针对性讨论。
OA0  ›  数据集  ›  tokyotech-llm

tokyotech-llm/lmsys-chat-1m-synth

 
  tokyotech-llm  ·  2026-02-20 05:38:03  ·  27 次点击  ·  0 条评论  

数据集简介

这是一个由东京工业大学LLM团队发布的合成对话数据集,基于LMSys Chat-1M生成,主要用于语言模型训练与评估。

主要用途

  • 语言模型(LLM)的预训练或指令微调
  • 对话系统研究与开发
  • 模型对齐与安全性评估

数据类型/模态

  • 模态:纯文本对话数据
  • 类型:合成生成的对话样本
  • 结构:模拟真实用户与AI助手的多轮对话

规模与统计

  • 数据量:约100万条合成对话(根据名称推断)
  • 下载量:756次
  • 社区关注度:19次点赞

使用场景

  1. 模型训练:为开源或研究型LLM提供高质量的合成对话数据
  2. 基准测试:作为对话生成质量的评估基准
  3. 学术研究:研究合成数据对模型性能的影响

特点

  • 数据完全开放(非门控访问)
  • 基于真实对话分布合成,兼顾质量与多样性
  • 适用于需要大规模对话数据的LLM训练场景
27 次点击  ∙  0 人收藏  
登录后收藏  
0 条回复
关于 ·  帮助 ·  PING ·  隐私 ·  条款   
OA0 - Omni AI 0 一个探索 AI 的社区
沪ICP备2024103595号-2
耗时 16 ms
Developed with Cursor