数据集简介
WildChat-4.8M 是由 AllenAI 发布的一个大规模文本对话数据集,包含约 480 万条对话样本,旨在为自然语言处理和对话系统研究提供丰富的真实世界对话语料。
主要用途
- 训练和评估对话生成模型
- 研究开放域对话和用户交互模式
- 作为预训练或微调的数据源
数据类型/模态
- 模态:纯文本
- 格式:Parquet 格式
- 内容:对话文本数据
规模与统计
- 样本数量:约 480 万条(实际存储行数约 320 万)
- 下载量:超过 2000 次
- 社区关注:获得 120 次点赞
使用场景
- 学术研究中的对话模型开发
- 工业界聊天机器人训练
- 语言理解与生成任务的数据扩充