Open-Orca/SlimOrca 是一个由 Open-Orca 团队发布的大型文本数据集,主要用于训练和评估大型语言模型(LLMs)。
该数据集旨在为语言模型的指令微调(Instruction Tuning)和对话能力优化提供高质量的训练语料。
适用于:
- 大型语言模型的指令跟随训练
- 对话系统与聊天机器人的开发
- 自然语言处理研究中的模型微调实验
数据集经过精简处理(Slim),在保证数据质量的同时优化了规模,便于研究人员和开发者高效使用。数据以 JSON 格式存储,支持通过主流数据处理库(如 pandas、polars)直接加载。