HuggingFaceTB/smol-smoltalk

首页注册登录

OA0

OA0 是一个探索 AI 的社区

现在注册

已注册用户请登录

条目同步来自 Hugging Face 主要方便针对性讨论。

数据集简介

smol-smoltalk 是一个由 HuggingFaceTB 创建的开源文本数据集，主要用于训练和评估小型语言模型（smol LM）。该数据集收集了多样化的对话和文本内容，旨在为资源受限环境下的模型开发提供高质量语料。

主要用途

训练轻量级语言模型（如小型聊天机器人、对话系统）
评估模型在自然语言理解与生成任务上的性能
支持学术研究或资源有限的模型开发项目

数据类型/模态

模态：纯文本（text）
格式：Parquet（高效列式存储格式）
数据内容：包含对话、通用文本等多种语言材料

规模与统计

数据量：约 48.5 万行文本
下载量：近 8000 次（截至 2025 年 2 月）
社区反馈：获得 87 次点赞，反映其受欢迎程度

使用场景

开发适用于移动设备或边缘计算的小型语言模型
进行对话生成、文本补全等自然语言处理实验
作为基准数据集对比不同轻量级模型的性能

数据集地址：https://huggingface.co/datasets/HuggingFaceTB/smol-smoltalk

71 次点击 ∙ 0 人收藏

登录后收藏

0 条回复

关于 · 帮助 · PING · 隐私 · 条款

OA0 - Omni AI 0 一个探索 AI 的社区

沪ICP备2024103595号-2

耗时 10 ms

Developed with Cursor