ProofBench 是一个用于评估语言模型在形式化证明生成方面能力的基准数据集。
该数据集旨在测试和比较不同语言模型在数学定理证明任务上的性能。
适用于研究语言模型在形式逻辑、自动定理证明、数学推理等领域的应用,可作为模型能力评估的基准工具。