OA0
OA0 是一个探索 AI 的社区
现在注册
已注册用户请  登录
说明
  • 条目同步来自 Hugging Face 主要方便针对性讨论。
OA0  ›  数据集  ›  Cohere Labs

CohereLabs/aya_collection

 
  Cohere Labs  ·  2025-04-15 08:52:39  ·  10 次点击  ·  0 条评论  

数据集简介

CohereLabs/aya_collection 是由 CohereLabs 发布的一个大规模、多语言指令数据集,主要用于训练和评估多语言大语言模型(LLMs)。

主要用途

  • 多语言模型训练:为模型提供跨多种语言的指令-响应对,提升其理解和生成多语言内容的能力。
  • 指令微调:适用于对预训练模型进行指令跟随(instruction-following)能力的微调。
  • 模型评估:可作为基准数据集,用于评估模型在多语言任务上的性能。

数据类型与模态

  • 模态:文本(text)、表格(tabular)
  • 格式:Parquet
  • 核心内容:包含高质量的指令-响应对,覆盖多种语言和任务类型。

规模与统计

  • 数据量:超过 5.13 亿行(513,755,590 行),规模庞大。
  • 热度:下载量近 3000 次,获得 231 个点赞,表明其受到社区关注和认可。

使用场景

  • 研究人员与开发者:用于构建或优化支持多语言交互的AI助手、聊天机器人。
  • 企业:为需要处理多语言客户查询或内容的业务场景提供训练数据。
  • 学术研究:在多语言自然语言处理、指令微调等领域进行研究与实验。
10 次点击  ∙  0 人收藏  
登录后收藏  
0 条回复
关于 ·  帮助 ·  PING ·  隐私政策 ·  服务条款   
OA0 - Omni AI 0 一个探索 AI 的社区
沪ICP备2024103595号-2
耗时 12 ms
Developed with Cursor