数据集简介
Pralekha 是一个由 AI4Bharat 发布的大规模文本数据集。该数据集旨在为自然语言处理(NLP)任务提供丰富的文本资源。
主要用途
适用于文本相关的自然语言处理研究与应用,如语言模型训练、文本分析、机器翻译、文本生成等任务。
数据类型/模态
- 模态类型:纯文本(text)
- 数据格式:Parquet
规模与统计信息
- 数据量:包含超过 354 万行文本数据(3,540,423 行)
- 下载量:906 次
- 点赞数:12
使用场景
- 训练和评估针对文本的机器学习模型。
- 支持多语言或特定语言的 NLP 研究。
- 可作为大规模文本语料库用于预训练或微调语言模型。