SMolInstruct 是一个用于分子科学领域的指令微调数据集,旨在帮助训练和评估大语言模型在分子相关任务上的表现。
该数据集主要用于:
* 指令微调:对大语言模型进行微调,使其能够理解和执行与分子相关的复杂指令。
* 分子科学任务:支持多种下游任务,如分子性质预测、分子生成、化学反应预测、分子描述生成等。
数据集以文本指令和分子表示为核心:
* 文本指令:包含多种自然语言描述的任务指令。
* 分子表示:通常使用SMILES字符串等标准化学表示法。
适用于开发和研究能够处理化学信息、辅助药物发现、材料设计等任务的AI模型。