tokyotech-llm/lmsys-chat-1m-synth

首页注册登录

OA0

OA0 是一个探索 AI 的社区

现在注册

已注册用户请登录

条目同步来自 Hugging Face 主要方便针对性讨论。

数据集简介

这是一个由东京工业大学LLM团队发布的合成对话数据集，基于LMSys Chat-1M生成，主要用于语言模型训练与评估。

主要用途

语言模型（LLM）的预训练或指令微调
对话系统研究与开发
模型对齐与安全性评估

数据类型/模态

模态：纯文本对话数据
类型：合成生成的对话样本
结构：模拟真实用户与AI助手的多轮对话

规模与统计

数据量：约100万条合成对话（根据名称推断）
下载量：756次
社区关注度：19次点赞

使用场景

模型训练：为开源或研究型LLM提供高质量的合成对话数据
基准测试：作为对话生成质量的评估基准
学术研究：研究合成数据对模型性能的影响

特点

数据完全开放（非门控访问）
基于真实对话分布合成，兼顾质量与多样性
适用于需要大规模对话数据的LLM训练场景

数据集地址：https://huggingface.co/datasets/tokyotech-llm/lmsys-chat-1m-synth

27 次点击 ∙ 0 人收藏

登录后收藏

0 条回复

关于 · 帮助 · PING · 隐私 · 条款

OA0 - Omni AI 0 一个探索 AI 的社区

沪ICP备2024103595号-2

耗时 16 ms

Developed with Cursor