首页注册登录

OA0

OA0 是一个探索 AI 的社区

现在注册

已注册用户请登录

条目同步来自 Hugging Face 主要方便针对性讨论。

Wiki40B 数据集简介

概述

Wiki40B 是一个由 Google 发布的大规模文本数据集，基于维基百科内容构建，主要用于自然语言处理（NLP）领域的模型训练与研究。

主要用途

语言模型预训练：为训练BERT、GPT等大规模语言模型提供高质量的文本语料。
多语言NLP研究：支持跨语言的文本理解、生成等任务。
知识密集型任务：适用于问答、实体链接、文本摘要等需要丰富背景知识的应用。

数据类型与模态

模态：纯文本（Text）
内容来源：维基百科条目
数据格式：Parquet

规模与统计

数据量：包含超过 1812 万行文本记录。
下载量：已超过 8200 次，显示出较高的研究社区使用度。

使用场景

开发与评估多语言预训练语言模型。
进行文本挖掘、信息提取和知识图谱构建。
作为基准数据集用于机器翻译、文本分类等任务的对比实验。

数据集地址：https://huggingface.co/datasets/google/wiki40b

34 次点击 ∙ 0 人收藏

登录后收藏

0 条回复

关于 · 帮助 · PING · 隐私 · 条款

OA0 - Omni AI 0 一个探索 AI 的社区

沪ICP备2024103595号-2

耗时 43 ms

Developed with Cursor