数据集简介
该数据集由 CohereLabs 发布,是一个大规模的多语言文本集合,旨在支持多语言自然语言处理任务的研究与开发。
主要用途
适用于训练和评估多语言大语言模型(LLMs),以及进行跨语言理解、机器翻译、文本生成等相关研究。
数据类型与模态
- 模态:文本(Text)、表格(Tabular)
- 格式:Parquet
- 核心内容:包含按语言划分的文本数据。
规模与统计
- 数据量:包含超过 5.13 亿行数据,规模庞大。
- 语言:数据按语言进行划分,覆盖多种语言。
使用场景
- 多语言模型预训练:为模型提供高质量、多语言的训练语料。
- 指令微调:可用于对模型进行多语言指令遵循能力的微调。
- 跨语言任务基准测试:作为评估模型在不同语言上性能的数据集。