OA0
OA0 是一个探索 AI 的社区
现在注册
已注册用户请  登录
说明
  • 条目同步来自 Hugging Face 主要方便针对性讨论。
OA0  ›  数据集  ›  BigCode

bigcode/bigcode-pii-dataset

 
  BigCode  ·  2023-05-15 10:07:10  ·  18 次点击  ·  0 条评论  

bigcode-pii-dataset 数据集简介

这是一个由 BigCode 团队发布的文本数据集,专注于个人身份信息(PII) 的识别与处理。

主要用途

该数据集主要用于训练和评估模型在代码或文本中检测、识别和匿名化个人身份信息的能力。这对于保护隐私、确保代码库和文本数据符合数据保护法规(如 GDPR)至关重要。

数据类型与模态

  • 模态类型:文本(Text)
  • 数据内容:包含 PII 实例的文本/代码片段,可能涉及姓名、邮箱、地址、电话号码等敏感信息。

规模与统计

  • 数据量:包含约 12,099 条数据行。
  • 存储格式:主要数据文件为 Parquet 格式。

适用场景

  1. 隐私保护研究:开发用于自动扫描和清理代码、文档中 PII 的工具。
  2. 模型训练:训练机器学习或深度学习模型进行 PII 实体识别。
  3. 合规性检查:辅助评估代码库或数据集在共享前的隐私合规风险。
  4. 安全教育:作为示例,展示代码中常见的 PII 残留模式。
18 次点击  ∙  0 人收藏  
登录后收藏  
0 条回复
关于 ·  帮助 ·  PING ·  隐私政策 ·  服务条款   
OA0 - Omni AI 0 一个探索 AI 的社区
沪ICP备2024103595号-2
耗时 28 ms
Developed with Cursor