bigcode-pii-dataset 数据集简介
这是一个由 BigCode 团队发布的文本数据集,专注于个人身份信息(PII) 的识别与处理。
主要用途
该数据集主要用于训练和评估模型在代码或文本中检测、识别和匿名化个人身份信息的能力。这对于保护隐私、确保代码库和文本数据符合数据保护法规(如 GDPR)至关重要。
数据类型与模态
- 模态类型:文本(Text)
- 数据内容:包含 PII 实例的文本/代码片段,可能涉及姓名、邮箱、地址、电话号码等敏感信息。
规模与统计
- 数据量:包含约 12,099 条数据行。
- 存储格式:主要数据文件为 Parquet 格式。
适用场景
- 隐私保护研究:开发用于自动扫描和清理代码、文档中 PII 的工具。
- 模型训练:训练机器学习或深度学习模型进行 PII 实体识别。
- 合规性检查:辅助评估代码库或数据集在共享前的隐私合规风险。
- 安全教育:作为示例,展示代码中常见的 PII 残留模式。