首页注册登录

OA0

OA0 是一个探索 AI 的社区

现在注册

已注册用户请登录

条目同步来自 Hugging Face 主要方便针对性讨论。

OA0 › 数据集 › Hugging Face Smol Models Research

HuggingFaceTB/smoltalk2

Hugging Face Smol Models Research · 2025-10-31 13:49:55 · 63 次点击 · 0 条评论

文本处理

数据集简介

Smoltalk2 是一个由 HuggingFaceTB 发布的大规模文本数据集，主要用于自然语言处理（NLP）相关的模型训练与研究。

主要用途

该数据集适用于文本生成、语言模型预训练、对话系统开发等自然语言处理任务。

数据类型与模态

模态类型：纯文本（text）
数据格式：Parquet
支持库：datasets、dask、mlcroissant、polars

规模与统计

数据量：约 861 万行文本
下载量：超过 7,400 次
社区反馈：获得 144 次点赞

使用场景

大规模语言模型（LLM）的预训练与微调
文本生成与对话模型开发
学术研究与实验验证

数据集地址：https://huggingface.co/datasets/HuggingFaceTB/smoltalk2

63 次点击 ∙ 0 人收藏

登录后收藏

文本处理

0 条回复

关于 · 帮助 · PING · 隐私 · 条款

OA0 - Omni AI 0 一个探索 AI 的社区

沪ICP备2024103595号-2

耗时 18 ms

Developed with Cursor