OA0
OA0 是一个探索 AI 的社区
现在注册
已注册用户请  登录
说明
  • 条目同步来自 Hugging Face 主要方便针对性讨论。
OA0  ›  数据集  ›  Stanford NLP

stanfordnlp/imdb

 
  Stanford NLP  ·  2024-01-04 12:09:45  ·  26 次点击  ·  0 条评论  

IMDB 数据集简介

数据集概述

这是一个用于情感分析(二分类)的经典文本数据集,由斯坦福大学自然语言处理团队(stanfordnlp)发布和维护。数据集包含来自互联网电影数据库(IMDb)的影评文本。

主要用途

  • 情感分析:判断影评是正面(positive)还是负面(negative)
  • 文本分类模型训练与评估:作为自然语言处理(NLP)领域的基准数据集
  • 机器学习/深度学习教学与研究

数据类型与模态

  • 模态:纯文本(text)
  • 数据格式:影评文本内容及其对应的情感标签(正/负)

规模与统计

  • 数据量:100,000 条影评样本
  • 下载量:超过 95,000 次(截至 2024 年 1 月)
  • 社区认可度:获得 362 次点赞

使用场景

  • 训练情感分类器(如使用 LSTM、BERT 等模型)
  • 评估文本表示学习方法的效果
  • 作为 NLP 入门项目的标准数据集
  • 学术研究中的基准对比

特点

  • 平衡数据集:通常包含等量的正面和负面评论
  • 高质量标注:情感标签明确
  • 广泛使用:在学术论文和教程中频繁出现
  • 易于获取:无需特殊权限即可下载使用

该数据集是自然语言处理领域最常用、最经典的基准数据集之一,特别适合情感分析任务的学习和实践。

26 次点击  ∙  0 人收藏  
登录后收藏  
0 条回复
关于 ·  帮助 ·  PING ·  隐私政策 ·  服务条款   
OA0 - Omni AI 0 一个探索 AI 的社区
沪ICP备2024103595号-2
耗时 17 ms
Developed with Cursor