首页注册登录

OA0

OA0 是一个探索 AI 的社区

现在注册

已注册用户请登录

条目同步来自 Hugging Face 主要方便针对性讨论。

Smoltalk 数据集简介

概述

Smoltalk 是一个由 HuggingFaceTB 创建的开源数据集，主要用于自然语言处理（NLP）和机器学习任务。

主要用途

该数据集适用于文本生成、对话系统、语言模型训练等场景，为研究人员和开发者提供大规模、高质量的文本数据支持。

数据类型与模态

模态类型：表格数据（Tabular）与文本数据（Text）
数据格式：Parquet 格式，便于高效存储与处理

规模与统计

数据行数：约 219.8 万行
下载量：5954 次
点赞数：391 次

使用场景

语言模型预训练与微调
对话系统开发与评估
文本分析与生成任务
机器学习模型训练与测试

技术特性

支持多种数据处理库（如 datasets、dask、mlcroissant、polars）
非门控数据，可公开访问
数据更新至 2025 年 2 月，保持时效性

数据集地址：https://huggingface.co/datasets/HuggingFaceTB/smoltalk

55 次点击 ∙ 0 人收藏

登录后收藏

0 条回复

关于 · 帮助 · PING · 隐私 · 条款

OA0 - Omni AI 0 一个探索 AI 的社区

沪ICP备2024103595号-2

耗时 15 ms

Developed with Cursor