Civil Comments 数据集简介
数据集概述
这是一个由 Google 发布的文本分类数据集,主要用于研究在线评论的文明程度和毒性检测。
主要用途
- 文本毒性检测:识别评论中是否包含攻击性、侮辱性或仇恨性内容。
- 文明度分析:评估在线评论的文明程度和礼貌性。
- 自然语言处理研究:可用于训练和评估文本分类、情感分析等模型。
数据类型与模态
- 模态:表格数据、文本数据
- 主要数据形式:包含文本评论及其相关标签(如毒性评分、文明度标签等)的结构化表格。
数据规模
- 数据量:包含近 200 万条评论(约 199.95 万行数据)。
使用场景
- 开发内容审核工具或算法。
- 学术研究,特别是关于在线言论、社会计算、NLP 伦理等领域。
- 训练机器学习模型以自动识别和过滤不文明言论。