数据集简介
该数据集名为 TCM-Instruction-Tuning-ShizhenGPT,是一个专门用于中医(TCM)领域指令微调任务的大规模文本数据集。
主要用途
用于训练或微调能够理解和执行中医相关指令的大语言模型(LLM),旨在提升模型在中医知识问答、诊断建议、方剂推荐等任务上的专业能力。
数据类型与模态
- 模态类型:纯文本(Text)
- 数据格式:JSON
- 数据规模:包含约 24.6万 条数据记录
特点与适用场景
- 领域专业性:专注于传统中医领域,内容可能涉及中医理论、诊断、中药、方剂等专业知识。
- 指令微调导向:数据以“指令-响应”对的形式组织,专门用于对齐模型的指令遵循能力。
- 大规模:超过24万条的数据量为模型训练提供了充足的语料。
- 适用场景:适用于开发中医领域的智能问答系统、辅助诊疗工具、中医知识科普模型或进行相关学术研究。