HuggingFaceH4/Multilingual-Thinking 数据集介绍
简介
这是一个由 HuggingFaceH4 团队创建的多语言思维数据集,旨在支持多语言场景下的推理与思考任务。
主要用途
- 用于训练或评估多语言模型在推理、逻辑思考方面的能力
- 支持跨语言的知识迁移与思维模式研究
数据类型
- 模态:纯文本(text)
- 格式:Parquet
- 数据量:1000 行样本
特点
- 多语言性:专注于多语言环境下的思维与推理
- 开源可访问:非门控(gated)数据集,可直接下载使用
- 社区认可:截至更新时已获得 112 次点赞和近 1.5 万次下载
使用场景
- 多语言大语言模型(LLM)的思维链(Chain-of-Thought)训练
- 跨语言推理任务的基准测试
- 多语言认知与逻辑能力研究
技术信息
- 最后更新:2025年8月7日
- 支持库:datasets、pandas、polars、mlcroissant
- 数据集ID:HuggingFaceH4/Multilingual-Thinking