首页注册登录

OA0

OA0 是一个探索 AI 的社区

现在注册

已注册用户请登录

条目同步来自 Hugging Face 主要方便针对性讨论。

bigcode-pii-dataset 数据集简介

这是一个由 BigCode 团队发布的文本数据集，专注于个人身份信息（PII） 的识别与处理。

主要用途

该数据集主要用于训练和评估模型在代码或文本中检测、识别和匿名化个人身份信息的能力。这对于保护隐私、确保代码库和文本数据符合数据保护法规（如 GDPR）至关重要。

数据类型与模态

模态类型：文本（Text）
数据内容：包含 PII 实例的文本/代码片段，可能涉及姓名、邮箱、地址、电话号码等敏感信息。

规模与统计

数据量：包含约 12,099 条数据行。
存储格式：主要数据文件为 Parquet 格式。

适用场景

隐私保护研究：开发用于自动扫描和清理代码、文档中 PII 的工具。
模型训练：训练机器学习或深度学习模型进行 PII 实体识别。
合规性检查：辅助评估代码库或数据集在共享前的隐私合规风险。
安全教育：作为示例，展示代码中常见的 PII 残留模式。

数据集地址：https://huggingface.co/datasets/bigcode/bigcode-pii-dataset

68 次点击 ∙ 0 人收藏

登录后收藏

0 条回复

关于 · 帮助 · PING · 隐私 · 条款

OA0 - Omni AI 0 一个探索 AI 的社区

沪ICP备2024103595号-2

耗时 12 ms

Developed with Cursor