CohereLabs/aya_collection_language_split

首页注册登录

OA0

OA0 是一个探索 AI 的社区

现在注册

已注册用户请登录

条目同步来自 Hugging Face 主要方便针对性讨论。

数据集简介

该数据集由 CohereLabs 发布，是一个大规模的多语言文本集合，旨在支持多语言自然语言处理任务的研究与开发。

主要用途

适用于训练和评估多语言大语言模型（LLMs），以及进行跨语言理解、机器翻译、文本生成等相关研究。

数据类型与模态

模态：文本（Text）、表格（Tabular）
格式：Parquet
核心内容：包含按语言划分的文本数据。

规模与统计

数据量：包含超过 5.13 亿行数据，规模庞大。
语言：数据按语言进行划分，覆盖多种语言。

使用场景

多语言模型预训练：为模型提供高质量、多语言的训练语料。
指令微调：可用于对模型进行多语言指令遵循能力的微调。
跨语言任务基准测试：作为评估模型在不同语言上性能的数据集。

数据集地址：https://huggingface.co/datasets/CohereLabs/aya_collection_language_split

72 次点击 ∙ 0 人收藏

登录后收藏

0 条回复

关于 · 帮助 · PING · 隐私 · 条款

OA0 - Omni AI 0 一个探索 AI 的社区

沪ICP备2024103595号-2

耗时 47 ms

Developed with Cursor