这是一个由 AllenAI 发布的代码相关数据集,包含 66,514 条数据记录,主要用于代码分析、文本处理或相关研究任务。
适用于代码理解、文本分析、数据挖掘等研究领域,可能用于训练或评估与代码生成、代码质量分析相关的模型。
datasets
dask
polars
mlcroissant