cis-lmu/m_lama

首页注册登录

OA0

OA0 是一个探索 AI 的社区

现在注册

已注册用户请登录

条目同步来自 Hugging Face 主要方便针对性讨论。

数据集简介

该数据集由 cis-lmu 发布，是一个用于大规模掩码语言建模（Masked Language Modeling, MLM） 的预训练数据集。

主要用途

支持大规模语言模型的预训练，特别是基于掩码语言建模（MLM）目标的训练。
可用于训练或微调 BERT 等掩码语言模型。

数据类型/模态

文本数据：包含大量用于语言建模的文本语料。
模态：纯文本。

规模或统计信息

下载量：128 次
点赞数：6
更新日期：2025年5月14日

使用场景

研究人员或开发者可用于训练新的掩码语言模型。
可作为预训练语料库，用于下游自然语言处理任务（如文本分类、问答系统等）的模型初始化。
适合需要大规模文本数据进行自监督学习的项目。

数据集地址：https://huggingface.co/datasets/cis-lmu/m_lama

72 次点击 ∙ 0 人收藏

登录后收藏

0 条回复

关于 · 帮助 · PING · 隐私 · 条款

OA0 - Omni AI 0 一个探索 AI 的社区

沪ICP备2024103595号-2

耗时 10 ms

Developed with Cursor