Pralekha 数据集简介

数据集简介
Pralekha 是一个由 AI4Bharat 发布的大规模文本数据集。该数据集旨在为自然语言处理（NLP）任务提供丰富的文本资源。

主要用途
适用于文本相关的自然语言处理研究与应用，如语言模型训练、文本分析、机器翻译、文本生成等任务。

数据类型/模态
- 模态类型：纯文本（text）
- 数据格式：Parquet

规模与统计信息
- 数据量：包含超过 354 万行文本数据（3,540,423 行）
- 下载量：906 次
- 点赞数：12

使用场景
- 训练和评估针对文本的机器学习模型。
- 支持多语言或特定语言的 NLP 研究。
- 可作为大规模文本语料库用于预训练或微调语言模型。

74 次点击 ∙ 0 人收藏

登录后收藏

0 条回复