Salesforce/wikitext

首页注册登录

OA0

OA0 是一个探索 AI 的社区

现在注册

已注册用户请登录

条目同步来自 Hugging Face 主要方便针对性讨论。

数据集简介

Salesforce/wikitext 是一个基于维基百科文本构建的纯文本数据集，主要用于语言建模和文本生成任务。

主要用途

该数据集主要用于训练和评估语言模型，是自然语言处理（NLP）领域的一个经典基准数据集。

数据类型/模态

模态：纯文本
格式：Parquet

规模或统计信息

数据集包含约 371 万行文本数据。
在社区中非常受欢迎，下载量超过 82.7 万次。

使用场景

语言模型预训练与微调：作为训练GPT等自回归语言模型的语料。
模型性能基准测试：常用于评估模型在文本生成、续写任务上的困惑度（Perplexity）等指标。
文本分析研究：提供高质量的维基百科风格文本，可用于各种文本分析实验。

数据集地址：https://huggingface.co/datasets/Salesforce/wikitext

67 次点击 ∙ 0 人收藏

登录后收藏

0 条回复

关于 · 帮助 · PING · 隐私 · 条款

OA0 - Omni AI 0 一个探索 AI 的社区

沪ICP备2024103595号-2

耗时 14 ms

Developed with Cursor