数据集简介
由 EleutherAI 发布,用于评估 Claude-4.5 模型在合成数据上的“错位倾向”(misalignment propensity)。该数据集旨在测试模型在面对可能引发有害、偏见或不安全行为的合成场景时的反应与倾向。
主要用途
- 评估大语言模型(如 Claude-4.5)在对抗性或诱导性测试中的安全性与对齐性。
- 研究模型在合成设计的“错位”情境下的行为模式与潜在风险。
数据类型与模态
- 模态:表格数据(tabular)与文本(text)。
- 格式:Parquet 格式,便于高效处理与分析。
- 规模:包含约 23.7 万行数据,规模较大。
使用场景
- AI 安全研究:为研究人员和开发者提供一个标准化的测试集,用于量化分析模型的安全漏洞与对齐缺陷。
- 模型基准测试:可作为评估和比较不同大语言模型在安全、伦理对齐方面性能的基准数据集之一。
- 数据驱动分析:利用其表格结构,支持对模型在各种合成测试案例上的表现进行详细的统计与模式分析。