数据集简介
CohereLabs/aya_collection 是由 CohereLabs 发布的一个大规模、多语言指令数据集,主要用于训练和评估多语言大语言模型(LLMs)。
主要用途
- 多语言模型训练:为模型提供跨多种语言的指令-响应对,提升其理解和生成多语言内容的能力。
- 指令微调:适用于对预训练模型进行指令跟随(instruction-following)能力的微调。
- 模型评估:可作为基准数据集,用于评估模型在多语言任务上的性能。
数据类型与模态
- 模态:文本(text)、表格(tabular)
- 格式:Parquet
- 核心内容:包含高质量的指令-响应对,覆盖多种语言和任务类型。
规模与统计
- 数据量:超过 5.13 亿行(513,755,590 行),规模庞大。
- 热度:下载量近 3000 次,获得 231 个点赞,表明其受到社区关注和认可。
使用场景
- 研究人员与开发者:用于构建或优化支持多语言交互的AI助手、聊天机器人。
- 企业:为需要处理多语言客户查询或内容的业务场景提供训练数据。
- 学术研究:在多语言自然语言处理、指令微调等领域进行研究与实验。