数据集简介
由 PatronusAI 发布的 TRACE 数据集,旨在用于评估大型语言模型(LLM)在遵循复杂指令方面的能力,特别是针对“拒绝回答”或“安全护栏”场景的测试。
主要用途
- 模型安全评估:测试 LLM 在面对不当、有害或越界请求时,能否正确拒绝回答。
- 指令遵循测试:评估模型对复杂、多步骤指令的理解与执行能力。
- 基准测试:为模型的安全性和可靠性提供一个标准化的评估基准。
数据类型与模态
- 模态:纯文本(Text)
- 数据格式:包含问题/指令以及期望的模型响应(尤其是“拒绝回答”类响应)。
规模与统计
- 数据量:517 行样本
- 格式:提供 Parquet 及优化后的 Parquet 格式,便于使用 datasets、pandas、polars 等库进行处理。
使用场景
- AI 安全研究:研究人员和开发者可用其量化评估 LLM 的安全边界。
- 模型开发与审计:在部署前测试模型对敏感或违规请求的应对策略。
- 学术基准:作为比较不同模型在指令遵循与安全拒绝方面性能的数据集。