MBZUAI/Bactrian-X 数据集简介
概述
Bactrian-X 是一个由 MBZUAI 发布的大规模多语言指令微调数据集,旨在支持跨语言的自然语言处理任务。
主要用途
- 多语言指令微调训练
- 跨语言模型评估与基准测试
- 多语言对话系统开发
数据类型
- 模态:纯文本数据
- 语言:支持多种语言(具体语言范围需参考完整文档)
- 格式:指令-响应对形式
数据规模
- 总数据量:约 348 万条样本
- 下载量:2,464 次
- 社区认可:123 次点赞
使用场景
- 训练多语言对话助手
- 构建跨语言任务导向系统
- 研究指令跟随能力的语言迁移
- 评估模型的多语言理解能力
特点
- 开源可公开访问
- 专注于指令微调格式
- 覆盖广泛的语言种类
- 适用于资源受限语言的研究